このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240403となっている論文です。

PDF登録状況(公開日: 20240403)

TitleAuthorsAbstract論文公表日・翻訳日
# ハイブリッド車両通信ネットワークにおけるDRLに基づくRAT選択

DRL-Based RAT Selection in a Hybrid Vehicular Communication Network ( http://arxiv.org/abs/2407.00828v1 )

ライセンス: Link先を確認
Badreddine Yacine Yacheur, Toufik Ahmed, Mohamed Mosbah, (参考訳) 協調的なインテリジェントトランスポートシステムは、道路安全性を高めるために、V2X(Vager-to-Everything)の一連のアプリケーションに依存している。 Advanced Driver Assistance Systems (ADASs) や Connected Autonomous Driving (CAD) のような新しいV2Xアプリケーションは、大量の共有データに依存し、高い信頼性、低エンドツーエンド(E2E)レイテンシ、高いスループットを必要とする。 しかし、現在のITS-G5やC-V2X(Cellular V2X)のようなV2X通信技術は、これらの要件のみを満たすことができない。 本稿では、複数の無線アクセス技術(RAT)の性能を活用して、これらのアプリケーションのニーズを満たすインテリジェントでスケーラブルなハイブリッド車載通信アーキテクチャを提案する。 そこで我々は,資源消費を抑えつつ,ネットワークの信頼性を最大化するために,深層強化学習(DRL)に基づく通信モード選択アルゴリズムを提案する。 最後に、高い信頼性を必要とする小隊シナリオを用いて作業を評価する。 シミュレーションの結果,ハイブリッド車体通信アーキテクチャは,静的RTT選択法とMCDM選択法の両方と比較して,パケット受信率(PRR)を最大30%向上させる可能性が示された。 さらに、リソース消費に関する冗長通信モードの効率を20%向上させる。

Cooperative intelligent transport systems rely on a set of Vehicle-to-Everything (V2X) applications to enhance road safety. Emerging new V2X applications like Advanced Driver Assistance Systems (ADASs) and Connected Autonomous Driving (CAD) applications depend on a significant amount of shared data and require high reliability, low end-to-end (E2E) latency, and high throughput. However, present V2X communication technologies such as ITS-G5 and C-V2X (Cellular V2X) cannot satisfy these requirements alone. In this paper, we propose an intelligent, scalable hybrid vehicular communication architecture that leverages the performance of multiple Radio Access Technologies (RATs) to meet the needs of these applications. Then, we propose a communication mode selection algorithm based on Deep Reinforcement Learning (DRL) to maximize the network's reliability while limiting resource consumption. Finally, we assess our work using the platooning scenario that requires high reliability. Numerical results reveal that the hybrid vehicular communication architecture has the potential to enhance the packet reception rate (PRR) by up to 30% compared to both the static RAT selection strategy and the multi-criteria decision-making (MCDM) selection algorithm. Additionally, it improves the efficiency of the redundant communication mode by 20% regarding resource consumption
翻訳日:2024-07-22 22:38:24 公開日:2024-04-03
# YOLOによるサンゴの自動検出:効率よく正確なサンゴ礁モニタリングのためのディープラーニングアプローチ

Automatic Coral Detection with YOLO: A Deep Learning Approach for Efficient and Accurate Coral Reef Monitoring ( http://arxiv.org/abs/2405.14879v1 )

ライセンス: Link先を確認
Ouassine Younes, Zahir Jihad, Conruyt Noël, Kayal Mohsen, A. Martin Philippe, Chenin Eric, Bigot Lionel, Vignes Lebbe Regine, (参考訳) サンゴ礁は、人為的な影響や気候変動によって脅威にさらされている重要な生態系である。 サンゴ礁の保存と管理には効率的かつ正確なモニタリングが不可欠である。 本稿では,水中画像解析に特化して最適化されたYou Only Look Once (YOLO)ディープラーニングモデルを用いたサンゴの自動検出システムを提案する。 システムの訓練と評価には,400個の水中画像からなるデータセットを用いる。 我々は,データ拡張技術を用いて画像操作を行うことで,注釈付き画像の数を580に増やし,より多様なトレーニング例を提供することで,モデルの性能を向上させることができた。 データセットは、様々なサンゴ礁環境、種、照明条件を捉えた水中ビデオから注意深く収集される。 本システムは, YOLOv5アルゴリズムのリアルタイム物体検出機能を活用し, 効率よく高精度なサンゴ検出を実現する。 YOLOv5を用いて、注釈付きデータセットから識別特徴を抽出し、以前は見つからなかった水中画像を含むシステムを一般化した。 YOLOv5によるサンゴ自動検出システムの実装が成功したことは,サンゴ礁研究・保全のための先進的なコンピュータビジョン技術の可能性を浮き彫りにした。 さらなる研究は、挑戦的な水中画像条件を扱うアルゴリズムを洗練し、データセットを拡張してより広い範囲のサンゴ種と時空間変動を組み込むことに焦点を当てる。

Coral reefs are vital ecosystems that are under increasing threat due to local human impacts and climate change. Efficient and accurate monitoring of coral reefs is crucial for their conservation and management. In this paper, we present an automatic coral detection system utilizing the You Only Look Once (YOLO) deep learning model, which is specifically tailored for underwater imagery analysis. To train and evaluate our system, we employ a dataset consisting of 400 original underwater images. We increased the number of annotated images to 580 through image manipulation using data augmentation techniques, which can improve the model's performance by providing more diverse examples for training. The dataset is carefully collected from underwater videos that capture various coral reef environments, species, and lighting conditions. Our system leverages the YOLOv5 algorithm's real-time object detection capabilities, enabling efficient and accurate coral detection. We used YOLOv5 to extract discriminating features from the annotated dataset, enabling the system to generalize, including previously unseen underwater images. The successful implementation of the automatic coral detection system with YOLOv5 on our original image dataset highlights the potential of advanced computer vision techniques for coral reef research and conservation. Further research will focus on refining the algorithm to handle challenging underwater image conditions, and expanding the dataset to incorporate a wider range of coral species and spatio-temporal variations.
翻訳日:2024-07-01 08:29:41 公開日:2024-04-03
# エネルギー効率の良いAIモデルアーキテクチャと「グリーン」胎児脳分節のための圧縮技術の検討

Investigation of Energy-efficient AI Model Architectures and Compression Techniques for "Green" Fetal Brain Segmentation ( http://arxiv.org/abs/2405.15778v1 )

ライセンス: Link先を確認
Szymon Mazurek, Monika Pytlarz, Sylwia Malec, Alessandro Crimi, (参考訳) 人工知能は様々な産業の進歩に貢献した。 しかし、人工知能技術の急速な成長は、計算モデルを訓練するための炭素フットプリントに関連するため、環境への影響への懸念も引き起こす。 医療画像における胎児脳のセグメンテーションは、胎児の脳の大きさが小さく、高速な2次元配列の画質が制限されているため困難である。 ディープニューラルネットワークはこの課題を克服するための有望な方法だ。 この文脈では、より大きなモデルの構築には広範なデータと計算能力が必要であり、高いエネルギー消費につながる。 本研究の目的は, 軽量ネットワーク設計, アーキテクチャ探索, 分散学習ツールの最適化など, 精度とエネルギー消費のトレードオフを最適化し, エネルギー効率を向上させるモデルアーキテクチャと圧縮技術を検討することである。 我々は,データロードの最適化,現代的なオプティマイザ,分散トレーニング戦略の実装,軽量モデルアーキテクチャによる浮動小数点演算精度の低減など,いくつかの効果的な戦略を明らかにした。 医用画像分割のためのディープニューラルネットワークトレーニングにおいて,これらの手法が低消費電力で良好なモデル性能を実現することが示唆された。

Artificial intelligence have contributed to advancements across various industries. However, the rapid growth of artificial intelligence technologies also raises concerns about their environmental impact, due to associated carbon footprints to train computational models. Fetal brain segmentation in medical imaging is challenging due to the small size of the fetal brain and the limited image quality of fast 2D sequences. Deep neural networks are a promising method to overcome this challenge. In this context, the construction of larger models requires extensive data and computing power, leading to high energy consumption. Our study aims to explore model architectures and compression techniques that promote energy efficiency by optimizing the trade-off between accuracy and energy consumption through various strategies such as lightweight network design, architecture search, and optimized distributed training tools. We have identified several effective strategies including optimization of data loading, modern optimizers, distributed training strategy implementation, and reduced floating point operations precision usage with light model architectures while tuning parameters according to available computer resources. Our findings demonstrate that these methods lead to satisfactory model performance with low energy consumption during deep neural network training for medical image segmentation.
翻訳日:2024-07-01 08:29:41 公開日:2024-04-03
# 改良モルタルチューリング試験における人工エージェントの寄与

Attributions toward Artificial Agents in a modified Moral Turing Test ( http://arxiv.org/abs/2406.11854v1 )

ライセンス: Link先を確認
Eyal Aharoni, Sharlene Fernandes, Daniel J. Brady, Caelan Alexander, Michael Criner, Kara Queen, Javier Rando, Eddy Nahmias, Victor Crespo, (参考訳) 人工知能(AI)の進歩は、人間が生成した道徳的評価と同様のAIシステムによる道徳的評価を見るかどうかという重要な疑問を提起する。 我々は,アレンと同僚の2000年の提案に触発された改良されたモラルチューリングテスト(m-MTT)を行い,一般的なAI言語モデルであるGPT-4と実際の人間の道徳的評価を区別するよう依頼した。 299人の米国成人の代表的サンプルは、まずその情報源に目が見えないときに道徳的評価の質を評価した。 注目すべきは、AIの道徳的推論は、アレンと同僚が比較MTTと呼ぶものを追い越すことと一致して、厳格さ、知性、信頼性など、ほぼすべての側面において、人間よりも品質が優れていると評価したことである。 次に、評価対象のソース(人間またはコンピュータ)を識別するタスクを行うと、人々は確率レベルよりもかなり高いパフォーマンスをしました。 AIはこの試験に合格しなかったが、それはその劣悪な道徳的理由によるものではなく、潜在的には、その優越性(英語版)、そして他の可能な説明(英語版)が原因であった。 言語モデルの出現は、人間よりも質が高いと認識される道徳的反応を生み出すことができるようになり、人々がAIから潜在的に有害な道徳的ガイダンスを受け入れる可能性があるという懸念が高まる。 この可能性は、道徳的問題における生成言語モデルに関する保護の必要性を強調している。

Advances in artificial intelligence (AI) raise important questions about whether people view moral evaluations by AI systems similarly to human-generated moral evaluations. We conducted a modified Moral Turing Test (m-MTT), inspired by Allen and colleagues' (2000) proposal, by asking people to distinguish real human moral evaluations from those made by a popular advanced AI language model: GPT-4. A representative sample of 299 U.S. adults first rated the quality of moral evaluations when blinded to their source. Remarkably, they rated the AI's moral reasoning as superior in quality to humans' along almost all dimensions, including virtuousness, intelligence, and trustworthiness, consistent with passing what Allen and colleagues call the comparative MTT. Next, when tasked with identifying the source of each evaluation (human or computer), people performed significantly above chance levels. Although the AI did not pass this test, this was not because of its inferior moral reasoning but, potentially, its perceived superiority, among other possible explanations. The emergence of language models capable of producing moral responses perceived as superior in quality to humans' raises concerns that people may uncritically accept potentially harmful moral guidance from AI. This possibility highlights the need for safeguards around generative language models in matters of morality.
翻訳日:2024-07-01 07:40:34 公開日:2024-04-03
# アルゴリズム監査の法と新たな政治経済

Law and the Emerging Political Economy of Algorithmic Audits ( http://arxiv.org/abs/2406.11855v1 )

ライセンス: Link先を確認
Petros Terzis, Michael Veale, Noëlle Gaumann, (参考訳) 約10年間、ACM FAccTコミュニティ内外の奨学金は、アルゴリズムシステムの機能を監査するための、新しく革新的な方法と方法論に焦点を当ててきた。 長年にわたり、この研究のアイデアと技術プロジェクトは十分に成熟し、規制委任状になった。 今日では、デジタルサービス法(DSA)とオンライン安全法(OSA)が、テクノロジー企業や(伝統的に)監査人がアルゴリズム監査の「実践」を開発して、この「生態系」がどのように発展するかを先取りする枠組みを確立している。 本稿では,DSA と OSA における監査規定を,アルゴリズム監査の新興産業からの観測から体系的に検討する。 誰がこの空間を占有するでしょう。 政治的・倫理的な緊張が生じる可能性はあるのか? 非依存的な監査」や「アルゴリズム関数の社会的文脈の評価」の義務は実際どのように機能するか? アルゴリズム監査の政治経済の台頭を図り、DSAとOSAの重要な規制柱を侵食するリスクを負う従来の監査人の戦略や文化に注意を向ける。 重要なことは、アルゴリズムによる監査のための野心的な研究のアイデアと技術プロジェクトは、従来の監査役の標準化によって崩壊し、(サブ)コントラクショナルなアレンジ、多様なポートフォリオ、タイトなタイムラインの複雑なウェブに希釈される可能性があるということです。

For almost a decade now, scholarship in and beyond the ACM FAccT community has been focusing on novel and innovative ways and methodologies to audit the functioning of algorithmic systems. Over the years, this research idea and technical project has matured enough to become a regulatory mandate. Today, the Digital Services Act (DSA) and the Online Safety Act (OSA) have established the framework within which technology corporations and (traditional) auditors will develop the `practice' of algorithmic auditing thereby presaging how this `ecosystem' will develop. In this paper, we systematically review the auditing provisions in the DSA and the OSA in light of observations from the emerging industry of algorithmic auditing. Who is likely to occupy this space? What are some political and ethical tensions that are likely to arise? How are the mandates of `independent auditing' or `the evaluation of the societal context of an algorithmic function' likely to play out in practice? By shaping the picture of the emerging political economy of algorithmic auditing, we draw attention to strategies and cultures of traditional auditors that risk eroding important regulatory pillars of the DSA and the OSA. Importantly, we warn that ambitious research ideas and technical projects of/for algorithmic auditing may end up crashed by the standardising grip of traditional auditors and/or diluted within a complex web of (sub-)contractual arrangements, diverse portfolios, and tight timelines.
翻訳日:2024-07-01 07:40:34 公開日:2024-04-03
# ヒューマンAI安全設計のためのコンセプトガイド型LLMエージェント

Concept-Guided LLM Agents for Human-AI Safety Codesign ( http://arxiv.org/abs/2404.15317v1 )

ライセンス: Link先を確認
Florian Geissler, Karsten Roscher, Mario Trapp, (参考訳) ジェネレーティブAIは、安全工学を含むソフトウェア工学においてますます重要になっている。 これはまた、生成AIの高品質な要件にも繋がる。 したがって、LLM(Large Language Models)の単純化された使用だけでは、これらの品質要求を満たすことはできない。 ソフトウェアシステムの複雑さと安全性を効果的に解決できる、より高度で高度なアプローチを開発することが重要です。 究極的には、人間はシステムの安全性を確保するために、生成AIが提供する提案を理解し、責任を負わなければならない。 この目的のために,安全性解析やヒューマンAI符号設計にLLMを活用するための,効率的でハイブリッドな戦略を提案する。 特に、システムモデルグラフとの相互作用において、事前に定義された安全概念に関連する課題を解決するために、迅速なエンジニアリング、ヒューリスティック推論、検索強化生成の要素を利用するカスタマイズLDMエージェントを開発する。 推論は、構造化された情報を保存するのに役立つ微小な決定のカスケードによって導かれる。 さらに,LLM-グラフ相互作用を促進するために,システムモデルの中間表現として機能するグラフ言語化を提案する。 安全分析に関係のあるプロンプトと応答のペアを選択することで,自動化運転システムの利用事例を示す。

Generative AI is increasingly important in software engineering, including safety engineering, where its use ensures that software does not cause harm to people. This also leads to high quality requirements for generative AI. Therefore, the simplistic use of Large Language Models (LLMs) alone will not meet these quality demands. It is crucial to develop more advanced and sophisticated approaches that can effectively address the complexities and safety concerns of software systems. Ultimately, humans must understand and take responsibility for the suggestions provided by generative AI to ensure system safety. To this end, we present an efficient, hybrid strategy to leverage LLMs for safety analysis and Human-AI codesign. In particular, we develop a customized LLM agent that uses elements of prompt engineering, heuristic reasoning, and retrieval-augmented generation to solve tasks associated with predefined safety concepts, in interaction with a system model graph. The reasoning is guided by a cascade of micro-decisions that help preserve structured information. We further suggest a graph verbalization which acts as an intermediate representation of the system model to facilitate LLM-graph interactions. Selected pairs of prompts and responses relevant for safety analytics illustrate our method for the use case of a simplified automated driving system.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-03
# VASARI-auto : グリオーマMRIの公平、効率的、経済的成果

VASARI-auto: equitable, efficient, and economical featurisation of glioma MRI ( http://arxiv.org/abs/2404.15318v1 )

ライセンス: Link先を確認
James K Ruffle, Samia Mohinta, Kelly Pegoretti Baruteau, Rebekah Rajiah, Faith Lee, Sebastian Brandner, Parashkev Nachev, Harpreet Hyare, (参考訳) VASARI MRI機能セットはグリオーマ画像記述の標準化のために設計された定量的システムである。 効果はあるものの、VASARIの誘導には時間がかかり、臨床ではほとんど使われない。 これは機械学習が確実に自動化できる問題だ。 1172例のグリオーマデータを用いてVASARI-autoを開発した。 同時に、2人のコンサルタント神経放射線学者が100例のグリオ芽腫のサブサンプルでVASARIの特徴を独立に定量化した。 私たちは次のように定量化した。 1) 神経放射線科医とVASARI-auto間の合意 2 パフォーマンスエクイティの校正 3 経済労働分析、及び 4) 患者生存予測における忠実度について検討した。 Tumourのセグメンテーションは現在の最先端と互換性があり、年齢や性別に関わらず同等に機能していた。 内科の神経放射線科医とVASARI-autoの間では,緩やかな変動がみられたが,VASARI-auto法とVASARI-auto法は一致しなかった。 神経放射線学者がVASARIを誘導する時間はVASARI-auto(平均317対3秒)よりも有意に高かった。 英国病院の労働力分析では、VASARI-autoの3年間は29,777人の神経放射線学者の労働時間(1,574,935人)を必要とし、VASARI-autoで332時間の計算時間(および146人)を再現できると予測されている。 ベストパフォーマンスサバイバルモデルでは、神経放射線学者によって派生されたものと対照的に、VASARI-autoの特徴を利用した。 VASARI-autoは、患者年齢や性別で同等の性能を持つ高度に効率的な自動ラベリングシステムであり、意思決定支援ツールとして使用すれば好適な経済プロファイルであり、下流患者の生存率予測において不確実である。 今後の作業は、患者のケアを強化するために、そうしたツールを反復して統合するべきである。

The VASARI MRI feature set is a quantitative system designed to standardise glioma imaging descriptions. Though effective, deriving VASARI is time-consuming and seldom used in clinical practice. This is a problem that machine learning could plausibly automate. Using glioma data from 1172 patients, we developed VASARI-auto, an automated labelling software applied to both open-source lesion masks and our openly available tumour segmentation model. In parallel, two consultant neuroradiologists independently quantified VASARI features in a subsample of 100 glioblastoma cases. We quantified: 1) agreement across neuroradiologists and VASARI-auto; 2) calibration of performance equity; 3) an economic workforce analysis; and 4) fidelity in predicting patient survival. Tumour segmentation was compatible with the current state of the art and equally performant regardless of age or sex. A modest inter-rater variability between in-house neuroradiologists was comparable to between neuroradiologists and VASARI-auto, with far higher agreement between VASARI-auto methods. The time taken for neuroradiologists to derive VASARI was substantially higher than VASARI-auto (mean time per case 317 vs. 3 seconds). A UK hospital workforce analysis forecast that three years of VASARI featurisation would demand 29,777 consultant neuroradiologist workforce hours ({\pounds}1,574,935), reducible to 332 hours of computing time (and {\pounds}146 of power) with VASARI-auto. The best-performing survival model utilised VASARI-auto features as opposed to those derived by neuroradiologists. VASARI-auto is a highly efficient automated labelling system with equitable performance across patient age or sex, a favourable economic profile if used as a decision support tool, and with non-inferior fidelity in downstream patient survival prediction. Future work should iterate upon and integrate such tools to enhance patient care.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-03
# 脳波を用いたオープンサイエンスのための最大のBCI再現性研究:MOABBベンチマーク

The largest EEG-based BCI reproducibility study for open science: the MOABB benchmark ( http://arxiv.org/abs/2404.15319v1 )

ライセンス: Link先を確認
Sylvain Chevallier, Igor Carrara, Bruno Aristimunha, Pierre Guetschel, Sara Sedlar, Bruna Lopes, Sebastien Velut, Salim Khazem, Thomas Moreau, (参考訳) 目的。 本研究では、オープン脳波データセット上での脳-コンピュータ・インタフェース(BCI)の再現性解析を行い、既存のソリューションを評価し、フィールド内で効果的に比較するためのオープンかつ再現可能なベンチマークを確立することを目的とする。 このようなベンチマークの必要性は、未公表のプロプライエタリなソリューションを生み出した産業の急速な進歩にある。 さらに、科学文献は密集しており、しばしば挑戦的かつ再現的な評価が特徴であり、既存のアプローチの比較は困難である。 アプローチ。 オープンフレームワーク内では、30の機械学習パイプライン(生信号:11、リーマン語:13、ディープラーニング:6)が慎重に再実装され、モーターイメージ(14)、P300(15)、SSVEP(7)を含む36の公開データセットで評価される。 この分析には、実行時間と環境影響を考慮した結果評価のための統計的メタ分析技術が組み込まれている。 主な結果。 本研究は, 運動画像, P300, SSVEPに着目した, 各種BCIパラダイムに適用可能な, 基本的かつ堅牢な結果をもたらす。 特に、空間共分散行列を利用したリーマン的アプローチは優れた性能を示し、深層学習技術による競合的な結果を達成するために、重要なデータボリュームの必要性を強調している。 包括的な結果は公開されており、将来の研究がBCIドメインの再現性をさらに向上させる道を開く。 重要なこと。 本研究の意義は、BCI研究のための厳密で透明なベンチマークを確立すること、最適方法論に関する洞察を提供すること、および分野における進歩の推進における再現性の重要性を明らかにすることにある。

Objective. This study conduct an extensive Brain-computer interfaces (BCI) reproducibility analysis on open electroencephalography datasets, aiming to assess existing solutions and establish open and reproducible benchmarks for effective comparison within the field. The need for such benchmark lies in the rapid industrial progress that has given rise to undisclosed proprietary solutions. Furthermore, the scientific literature is dense, often featuring challenging-to-reproduce evaluations, making comparisons between existing approaches arduous. Approach. Within an open framework, 30 machine learning pipelines (separated into raw signal: 11, Riemannian: 13, deep learning: 6) are meticulously re-implemented and evaluated across 36 publicly available datasets, including motor imagery (14), P300 (15), and SSVEP (7). The analysis incorporates statistical meta-analysis techniques for results assessment, encompassing execution time and environmental impact considerations. Main results. The study yields principled and robust results applicable to various BCI paradigms, emphasizing motor imagery, P300, and SSVEP. Notably, Riemannian approaches utilizing spatial covariance matrices exhibit superior performance, underscoring the necessity for significant data volumes to achieve competitive outcomes with deep learning techniques. The comprehensive results are openly accessible, paving the way for future research to further enhance reproducibility in the BCI domain. Significance. The significance of this study lies in its contribution to establishing a rigorous and transparent benchmark for BCI research, offering insights into optimal methodologies and highlighting the importance of reproducibility in driving advancements within the field.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-03
# 説明可能なAIが人間のパフォーマンスにどのように影響するか:サリエンシマップの行動結果の体系的レビュー

How explainable AI affects human performance: A systematic review of the behavioural consequences of saliency maps ( http://arxiv.org/abs/2404.16042v1 )

ライセンス: Link先を確認
Romy Müller, (参考訳) 透明性マップは、ディープニューラルネットワークがどのように画像を分類するかを説明することができる。 しかし、実際には人間にとって役に立つのだろうか? 68のユーザスタディの体系的なレビューでは、サリエンシマップは人間のパフォーマンスを向上させるが、ヌル効果やコストさえも非常に一般的であることがわかった。 これらの効果をどう調節するかを調べるために、人間のタスク、AIパフォーマンス、XAIメソッド、分類対象の画像、人間の参加者、比較条件に関連するいくつかの要因に沿って実験結果が編成された。 イメージ中心のタスクでは、AI中心のタスクよりもメリットは一般的ではなかったが、その効果は特定の認知的要求に依存していた。 さらに、AIに焦点を当てたタスクではAI予測の誤りに制限されるが、画像に焦点を当てたタスクでは修正される。 XAI関連の要因は驚くほど少なかった。 証拠は画像関連因子と人間関連因子に限られており、その効果は比較条件に大きく依存していた。 これらの知見は、将来のユーザ研究の設計を支援する可能性がある。

Saliency maps can explain how deep neural networks classify images. But are they actually useful for humans? The present systematic review of 68 user studies found that while saliency maps can enhance human performance, null effects or even costs are quite common. To investigate what modulates these effects, the empirical outcomes were organised along several factors related to the human tasks, AI performance, XAI methods, images to be classified, human participants and comparison conditions. In image-focused tasks, benefits were less common than in AI-focused tasks, but the effects depended on the specific cognitive requirements. Moreover, benefits were usually restricted to incorrect AI predictions in AI-focused tasks but to correct ones in image-focused tasks. XAI-related factors had surprisingly little impact. The evidence was limited for image- and human-related factors and the effects were highly dependent on the comparison conditions. These findings may support the design of future user studies.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-03
# 動的ニューラルネットワークフロー実行:エージェントに基づく二項脆弱性検出のためのDeep Equilibriumアプローチ

Dynamic Neural Control Flow Execution: An Agent-Based Deep Equilibrium Approach for Binary Vulnerability Detection ( http://arxiv.org/abs/2404.08562v1 )

ライセンス: Link先を確認
Litao Li, Steven H. H. Ding, Andrew Walenstein, Philippe Charland, Benjamin C. M. Fung, (参考訳) ソフトウェア脆弱性はサイバーセキュリティの課題だ。 手動のセキュリティパッチは多くの場合、デプロイが難しく遅く、新しい脆弱性が生成される。 バイナリコードの脆弱性検出は、ソースコードに比べてあまり研究されておらず、複雑ではない。 ディープラーニングは、エンドツーエンドで正確な予測を提供するセキュリティ領域において、効率的で強力なツールになっています。 現代のディープラーニングアプローチは、抽象構文木(AST)や制御フローグラフ(CFG)といったプログラムの様々な中間表現を用いて、シーケンスとグラフニューラルネットワークを通じてプログラムセマンティクスを学習する。 プログラム実行の複雑な性質のため、実行の出力は多くのプログラムの状態と入力に依存する。 また、静的解析から生成されたCFGは、真のプログラムフローの過大評価である。 さらに、プログラムのサイズは、固定層を持つグラフニューラルネットワークがグローバル情報を集約することを許可しないことが多い。 これらの問題に対処するために,プログラムの実行経路を模倣したエージェントベースの暗黙的ニューラルネットワークであるDeepEXEを提案する。 我々は、強化学習を用いて、プログラム状態遷移毎に分岐決定を強化し、脆弱性と特定のプログラム状態の間の依存性を学習するための動的環境を作成する。 暗黙的に定義されたニューラルネットワークは、収束までほぼ無限の状態遷移を可能にし、より高いレベルで構造情報をキャプチャする。 実験は2つの半合成と2つの実世界のデータセットで実施される。 DeepEXEは正確かつ効率的な手法であり、最先端の脆弱性検出方法よりも優れていることを示す。

Software vulnerabilities are a challenge in cybersecurity. Manual security patches are often difficult and slow to be deployed, while new vulnerabilities are created. Binary code vulnerability detection is less studied and more complex compared to source code, and this has important practical implications. Deep learning has become an efficient and powerful tool in the security domain, where it provides end-to-end and accurate prediction. Modern deep learning approaches learn the program semantics through sequence and graph neural networks, using various intermediate representation of programs, such as abstract syntax trees (AST) or control flow graphs (CFG). Due to the complex nature of program execution, the output of an execution depends on the many program states and inputs. Also, a CFG generated from static analysis can be an overestimation of the true program flow. Moreover, the size of programs often does not allow a graph neural network with fixed layers to aggregate global information. To address these issues, we propose DeepEXE, an agent-based implicit neural network that mimics the execution path of a program. We use reinforcement learning to enhance the branching decision at every program state transition and create a dynamic environment to learn the dependency between a vulnerability and certain program states. An implicitly defined neural network enables nearly infinite state transitions until convergence, which captures the structural information at a higher level. The experiments are conducted on two semi-synthetic and two real-world datasets. We show that DeepEXE is an accurate and efficient method and outperforms the state-of-the-art vulnerability detection methods.
翻訳日:2024-04-21 20:14:16 公開日:2024-04-03
# 食品産業における新型コロナウイルスの消費者行動への影響評価のためのベイズ回帰アプローチ

A Bayesian Regression Approach for Estimating the Impact of COVID-19 on Consumer Behavior in the Restaurant Industry ( http://arxiv.org/abs/2404.08670v1 )

ライセンス: Link先を確認
H. Hinduja, N. Mandal, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界中の産業に長期的影響を及ぼし、多くのレストランが閉鎖され、雇用が失われるなど、ホスピタリティと食品産業に大きな課題に直面している。 本研究では,ハミルトニアン・モンテカルロを用いたベイズ回帰モデルを用いた革新的な分析フレームワークを開発し,新型コロナウイルスによる飲食店の消費者行動の変化点を推定することを目的とした。 本手法は,パンデミック前後の顧客の行動変化を把握し,計算分析における新しい手法を強調する。 本研究は、レストラン産業における新型コロナウイルスの影響の理解に寄与し、レストランオーナーや政策立案者にとって貴重なものである。

The COVID-19 pandemic has had a long-term impact on industries worldwide, with the hospitality and food industry facing significant challenges, leading to the permanent closure of many restaurants and the loss of jobs. In this study, we developed an innovative analytical framework using Hamiltonian Monte Carlo for predictive modeling with Bayesian regression, aiming to estimate the change point in consumer behavior towards different types of restaurants due to COVID-19. Our approach emphasizes a novel method in computational analysis, providing insights into customer behavior changes before and after the pandemic. This research contributes to understanding the effects of COVID-19 on the restaurant industry and is valuable for restaurant owners and policymakers.
翻訳日:2024-04-21 20:04:31 公開日:2024-04-03
# リコメンダシステムのイテレーション速度最適化のための評価ファンネルのナビゲーション

Navigating the Evaluation Funnel to Optimize Iteration Speed for Recommender Systems ( http://arxiv.org/abs/2404.08671v1 )

ライセンス: Link先を確認
Claire Schultzberg, Brammert Ottens, (参考訳) 過去数十年にわたり、レコメンデーションシステムの評価に関する豊富な文献が浮上してきた。 しかし、このリッチフィールドから異なる評価手法を効率的に組み合わせて単一の効率的な評価ファネルを作る方法については、あまり書かれていない。 本稿では,提案手法の選定方法に関する直観を構築することを目的として,レコメンデーションシステムにおける評価ファンネル周辺の推論を簡略化する新しい枠組みを提案する。 私たちの貢献は2倍です。 まず、効率の良い評価ファネルを構築するために成功の定義を分解する方法の枠組みを示し、不必要なイテレーションを素早く識別し破棄する方法に焦点を当てる。 成功の定義を、成功に必要な最小限の基準に分解することで、不要なアイデアを早期に特定できることを示す。 第2に、最も一般的で有用な評価方法の概要を説明し、それらの長所と短所、それらがどのように適合し、相互に補完するか、評価プロセスについて論じる。 偽造ログ、検証、検証、A/Bテスト、インターリーブといった、いわゆるオフラインおよびオンライン評価手法を精査する。 本論文は,レコメンデータシステムのための効率的な評価プロセスの設計方法について,いくつかの一般的な議論とアドバイスで締めくくっている。

Over the last decades has emerged a rich literature on the evaluation of recommendation systems. However, less is written about how to efficiently combine different evaluation methods from this rich field into a single efficient evaluation funnel. In this paper we aim to build intuition for how to choose evaluation methods, by presenting a novel framework that simplifies the reasoning around the evaluation funnel for a recommendation system. Our contribution is twofold. First we present our framework for how to decompose the definition of success to construct efficient evaluation funnels, focusing on how to identify and discard non-successful iterations quickly. We show that decomposing the definition of success into smaller necessary criteria for success enables early identification of non-successful ideas. Second, we give an overview of the most common and useful evaluation methods, discuss their pros and cons, and how they fit into, and complement each other in, the evaluation process. We go through so-called offline and online evaluation methods such as counterfactual logging, validation, verification, A/B testing, and interleaving. The paper concludes with some general discussion and advice on how to design an efficient evaluation process for recommender systems.
翻訳日:2024-04-21 20:04:31 公開日:2024-04-03
# 対話システムにおけるパーソナリティに影響を及ぼす感情生成

Personality-affected Emotion Generation in Dialog Systems ( http://arxiv.org/abs/2404.07229v1 )

ライセンス: Link先を確認
Zhiyuan Wen, Jiannong Cao, Jiaxing Shen, Ruosong Yang, Shuaiqi Liu, Maosong Sun, (参考訳) 応答に対する適切な感情の生成は、様々なアプリケーションシナリオにおいて人間のようなインタラクションを提供するために、ダイアログシステムにとって不可欠である。 従来の対話システムは、匿名の会話データから共感的態度を学習することで、この目標を達成しようとした。 しかし,これらの手法が生み出す感情的反応は矛盾する可能性があり,ユーザエンゲージメントやサービス品質が低下する。 心理学的な知見は、人間の感情表現は性格特性に根ざしていることを示唆している。 そこで我々は,ダイアログシステムに付与された個性に基づいて感情を生成するための新たなタスクであるパーソナリティ影響感情生成を提案し,さらに,パーソナリティ影響感情遷移による解決について検討する。 具体的には、感情とパーソナリティのアノテーションを備えた毎日のダイアログデータセット、Personality EmotionLines Dataset(PELD)を構築する。 そして,その課題,すなわち(1)個性と感情的要因を不均一に統合し,(2)対話場面における多粒性感情情報を抽出する。 最後に、ダイアログシステムにおける気分遷移過程をシミュレートし、上記の課題を解決することによって、人格を遷移重みとしてモデル化することを提案する。 PELDを用いた評価実験を行った。 その結果,感情生成性能はマクロF1では13%,重み付きF1では5%向上することが示唆された。

Generating appropriate emotions for responses is essential for dialog systems to provide human-like interaction in various application scenarios. Most previous dialog systems tried to achieve this goal by learning empathetic manners from anonymous conversational data. However, emotional responses generated by those methods may be inconsistent, which will decrease user engagement and service quality. Psychological findings suggest that the emotional expressions of humans are rooted in personality traits. Therefore, we propose a new task, Personality-affected Emotion Generation, to generate emotion based on the personality given to the dialog system and further investigate a solution through the personality-affected mood transition. Specifically, we first construct a daily dialog dataset, Personality EmotionLines Dataset (PELD), with emotion and personality annotations. Subsequently, we analyze the challenges in this task, i.e., (1) heterogeneously integrating personality and emotional factors and (2) extracting multi-granularity emotional information in the dialog context. Finally, we propose to model the personality as the transition weight by simulating the mood transition process in the dialog system and solve the challenges above. We conduct extensive experiments on PELD for evaluation. Results suggest that by adopting our method, the emotion generation performance is improved by 13% in macro-F1 and 5% in weighted-F1 from the BERT-base model.
翻訳日:2024-04-14 13:13:23 公開日:2024-04-03
# Interval-valued fuzzy soft $β$-covering approximation space

Interval-valued fuzzy soft $β$-covering approximation spaces ( http://arxiv.org/abs/2404.07230v1 )

ライセンス: Link先を確認
Shizhan Lu, (参考訳) 区間値付ファジィソフト(英語版)$\beta$-covering approximation space (IFS$\beta$CASs)の概念は、ソフト集合、粗集合および区間値付ファジィ集合の理論を組み合わせるために導入され、区間値付ファジィソフト(英語版)$\beta$-neighborhoodsおよびIFS$\beta$-neighborhoods of IFS$\beta$CASs(英語版)に関するいくつかの基本的な命題が検討されている。 そして、4種類の間隔値のファジィソフト$\beta$-coveringsに基づくファジィ粗集合について研究する。 最後に, 4種類の間隔値ファジィソフト$\beta$-coveringsに基づくファジィ粗集合の関係について検討した。

The concept of interval-valued fuzzy soft $\beta$-covering approximation spaces (IFS$\beta$CASs) is introduced to combine the theories of soft sets, rough sets and interval-valued fuzzy sets, and some fundamental propositions concerning interval-valued fuzzy soft $\beta$-neighborhoods and soft $\beta$-neighborhoods of IFS$\beta$CASs are explored. And then four kinds of interval-valued fuzzy soft $\beta$-coverings based fuzzy rough sets are researched. Finally, the relationships of four kinds of interval-valued fuzzy soft $\beta$-coverings based fuzzy rough sets are investigated.
翻訳日:2024-04-14 13:13:23 公開日:2024-04-03
# 量子$p$-スピンハミルトニアンの基底状態エネルギー上の境界

Bounds on the ground state energy of quantum $p$-spin Hamiltonians ( http://arxiv.org/abs/2404.07231v1 )

ライセンス: Link先を確認
Eric R. Anschuetz, David Gamarnik, Bobak T. Kiani, (参考訳) 量子$p$-局所スピングラスランダムハミルトニアンの基底状態エネルギーを推定する問題は、広く研究されている古典スピングラスモデルの量子アナログである。 我々の主な結果は、積状態によって達成可能な最大エネルギーが、$n\to\infty$として(p$に対してさえ)十分に定義された極限を持ち、$E_{\text{product}}^\ast=\sqrt{2 \log p}$ であることを示している。 この値は、古典的なスピングラスの設定において広く研究されている、非常に単純なランダムエネルギーモデル(Random Energy Model)の最大エネルギーとして解釈される。 極限の存在の証明は、(正規化された)焼成自由エネルギーの超付加性に近いことを証明した後、フェケテのレムマの拡張から従う。 値の証明は、製品状態の$\epsilon$-netに制限されたときに与えられたエネルギーを達成する状態の数についての第二モーメント法から従う。 さらに、全ての状態上で達成された最大エネルギーを$p$-依存定数 $\gamma\left(p\right)$ に関連付ける。 すべての状態$E^\ast\left(p\right)$で達成される最大エネルギーは、大きめの$n$の極限において、少なくとも$\sqrt{\gamma\left(p\right)}E_{\text{product}}^\ast$であることを示す。 また、Lindebergの補間法を用いて、ランダム性の選択に関して$E^\ast\left(p\right)$の制限が堅牢であること、そして例えば、スパースランダムハミルトニアンの場合にも適用可能であることを証明した。 このランダム性のロバスト性は、SYKやランダム量子マックスカットを含む幅広いランダムハミルトンモデルにまで拡張される。

We consider the problem of estimating the ground state energy of quantum $p$-local spin glass random Hamiltonians, the quantum analogues of widely studied classical spin glass models. Our main result shows that the maximum energy achievable by product states has a well-defined limit (for even $p$) as $n\to\infty$ and is $E_{\text{product}}^\ast=\sqrt{2 \log p}$ in the limit of large $p$. This value is interpreted as the maximal energy of a much simpler so-called Random Energy Model, widely studied in the setting of classical spin glasses. The proof of the limit existing follows from an extension of Fekete's Lemma after we demonstrate near super-additivity of the (normalized) quenched free energy. The proof of the value follows from a second moment method on the number of states achieving a given energy when restricting to an $\epsilon$-net of product states. Furthermore, we relate the maximal energy achieved over all states to a $p$-dependent constant $\gamma\left(p\right)$, which is defined by the degree of violation of a certain asymptotic independence ansatz over graph matchings. We show that the maximal energy achieved by all states $E^\ast\left(p\right)$ in the limit of large $n$ is at most $\sqrt{\gamma\left(p\right)}E_{\text{product}}^\ast$. We also prove using Lindeberg's interpolation method that the limiting $E^\ast\left(p\right)$ is robust with respect to the choice of the randomness and, for instance, also applies to the case of sparse random Hamiltonians. This robustness in the randomness extends to a wide range of random Hamiltonian models including SYK and random quantum max-cut.
翻訳日:2024-04-14 13:13:23 公開日:2024-04-03
# 地球科学の因果関係 -時系列と時空間因果関係の考察-

Causality for Earth Science -- A Review on Time-series and Spatiotemporal Causality Methods ( http://arxiv.org/abs/2404.05746v1 )

ライセンス: Link先を確認
Sahara Ali, Uzma Hasan, Xingyan Li, Omar Faruque, Akila Sampath, Yiyi Huang, Md Osman Gani, Jianwu Wang, (参考訳) 本研究は,地球科学における時系列の広さと深度,時空間因果関係の手法とその応用について述べる。 より具体的には、因果関係の発見と因果関係の推測について概説し、根底にある因果関係の仮定を説明し、領域領域の評価手法と重要な用語を列挙する。 本稿では,時系列および時空間因果解析に導入された様々な最先端手法を,その強度と限界とともに適用する。 本論文は, 極度の気象イベント, 海面上昇, テレコネクションなど, 地球科学の特定の問題に対処するためのいくつかの手法の既存の応用について述べる。 このサーベイペーパーは、地球科学データセット(合成、シミュレーション、観測データ)やオープンソースの因果解析ツールなど、データ駆動因果解析に関心のあるデータサイエンス研究者のプライマーとして機能する。 因果性に基づく地球科学研究を行う上でのオープンな課題と機会を示すため、異なる動的および熱力学的プロセスの因果性を研究するために、AI主導のアプローチを採用することに関心を持つ地球科学コミュニティにも同じように利益をもたらすだろう。

This survey paper covers the breadth and depth of time-series and spatiotemporal causality methods, and their applications in Earth Science. More specifically, the paper presents an overview of causal discovery and causal inference, explains the underlying causal assumptions, and enlists evaluation techniques and key terminologies of the domain area. The paper elicits the various state-of-the-art methods introduced for time-series and spatiotemporal causal analysis along with their strengths and limitations. The paper further describes the existing applications of several methods for answering specific Earth Science questions such as extreme weather events, sea level rise, teleconnections etc. This survey paper can serve as a primer for Data Science researchers interested in data-driven causal study as we share a list of resources, such as Earth Science datasets (synthetic, simulated and observational data) and open source tools for causal analysis. It will equally benefit the Earth Science community interested in taking an AI-driven approach to study the causality of different dynamic and thermodynamic processes as we present the open challenges and opportunities in performing causality-based Earth Science study.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-03
# LLMを用いた類似データポイント同定:要約と隠れ状態洞察を用いたループ内人間戦略

Similar Data Points Identification with LLM: A Human-in-the-loop Strategy Using Summarization and Hidden State Insights ( http://arxiv.org/abs/2404.04281v1 )

ライセンス: Link先を確認
Xianlong Zeng, Fanghao Song, Ang Liu, (参考訳) 本研究では,Large Language Models (LLMs) を用いて,表や画像データなどの非自由テキスト領域間で類似したデータポイントを識別する簡易かつ効果的な手法を提案する。 我々の2段階のアプローチは、データポイントの要約と隠れ状態抽出である。 最初、データはLLMを使用して要約され、複雑さを減らし、文の本質的な情報を強調する。 その後、要約文は別のLLMを通して入力され、隠れた状態を抽出し、コンパクトで特徴豊富な表現として機能する。 このアプローチは、LLMの高度な理解と生成能力を活用し、多様なデータセット間で類似性を識別するためのスケーラブルで効率的な戦略を提供する。 複数のデータセット上で類似したデータポイントを同定する上で,本手法の有効性を示す。 さらに,本手法により,詐欺捜査員やマーケティング担当者などの非技術分野の専門家が,特定のシナリオに適した類似データポイントを迅速に特定し,実用的応用の実証を行うことができる。 概して, 様々な領域にわたるデータ解析において LLM を活用するための新たな道が開かれた。

This study introduces a simple yet effective method for identifying similar data points across non-free text domains, such as tabular and image data, using Large Language Models (LLMs). Our two-step approach involves data point summarization and hidden state extraction. Initially, data is condensed via summarization using an LLM, reducing complexity and highlighting essential information in sentences. Subsequently, the summarization sentences are fed through another LLM to extract hidden states, serving as compact, feature-rich representations. This approach leverages the advanced comprehension and generative capabilities of LLMs, offering a scalable and efficient strategy for similarity identification across diverse datasets. We demonstrate the effectiveness of our method in identifying similar data points on multiple datasets. Additionally, our approach enables non-technical domain experts, such as fraud investigators or marketing operators, to quickly identify similar data points tailored to specific scenarios, demonstrating its utility in practical applications. In general, our results open new avenues for leveraging LLMs in data analysis across various domains.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-03
# アメリカ全土における経済収束の分析 : 一人当たりGDPの持続的分析アプローチ

Analyzing Economic Convergence Across the Americas: A Survival Analysis Approach to GDP per Capita Trajectories ( http://arxiv.org/abs/2404.04282v1 )

ライセンス: Link先を確認
Diego Vallarino, (参考訳) 本研究は、生存分析、機械学習アルゴリズム、経済解釈を統合することにより、年間120ヶ月(2013-2022年)にわたって、一人当たりの購買力のパーティ調整GDPが5%上昇する時間的ダイナミクスを検証した。 比較調査では、DeepSurvは非線形相互作用を捉えるのに熟練しているが、標準的なモデルは特定の状況下で同等のパフォーマンスを示す。 重量行列は、脆弱性、リスク、能力の経済的影響を評価する。 GDPpcの目標を達成するために、リスクテイキング、戦略的脆弱性低減、政府能力と社会的結束性への投資に対するバランスのとれたアプローチの必要性を強調した。 政策ガイドラインは、決定をしながら複雑なダイナミクスを考慮に入れた個人化されたアプローチを促進する。

By integrating survival analysis, machine learning algorithms, and economic interpretation, this research examines the temporal dynamics associated with attaining a 5 percent rise in purchasing power parity-adjusted GDP per capita over a period of 120 months (2013-2022). A comparative investigation reveals that DeepSurv is proficient at capturing non-linear interactions, although standard models exhibit comparable performance under certain circumstances. The weight matrix evaluates the economic ramifications of vulnerabilities, risks, and capacities. In order to meet the GDPpc objective, the findings emphasize the need of a balanced approach to risk-taking, strategic vulnerability reduction, and investment in governmental capacities and social cohesiveness. Policy guidelines promote individualized approaches that take into account the complex dynamics at play while making decisions.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-03
# 翻訳に基づくビデオ合成

Translation-based Video-to-Video Synthesis ( http://arxiv.org/abs/2404.04283v1 )

ライセンス: Link先を確認
Pratim Saha, Chengcui Zhang, (参考訳) 翻訳に基づくビデオ合成(TVS)は、時間的連続性と基盤となるコンテンツの特徴を保ちながら、異なるドメイン間の動画の変換を促進することを目的として、コンピュータビジョンにおいて重要な研究領域として登場した。 この技術は、従来の画像から画像への変換能力を時間領域に拡張することで、ビデオの超解像、色化、セグメンテーションなどを含む広い範囲の応用を見出した。 TVSで直面している主な課題の1つは、合成プロセス中にフレーム間にフリッカリングアーティファクトや不整合を導入することの固有のリスクである。 これは、ビデオフレーム間のスムーズでコヒーレントな遷移を保証する必要があるため、特に難しい。 この課題に取り組むための努力は、これらの望ましくない結果を軽減することを目的とした多様な戦略とアルゴリズムの作成を促した。 本総説では,TVSの最近の進歩を概観する。 新たな手法を徹底的に研究し、熟練したビデオ合成に利用される基本的な概念とメカニズムに光を当てる。 この調査はまた、彼らの固有の強み、限界、適切な応用、そして将来の発展への潜在的道筋を照らす。

Translation-based Video Synthesis (TVS) has emerged as a vital research area in computer vision, aiming to facilitate the transformation of videos between distinct domains while preserving both temporal continuity and underlying content features. This technique has found wide-ranging applications, encompassing video super-resolution, colorization, segmentation, and more, by extending the capabilities of traditional image-to-image translation to the temporal domain. One of the principal challenges faced in TVS is the inherent risk of introducing flickering artifacts and inconsistencies between frames during the synthesis process. This is particularly challenging due to the necessity of ensuring smooth and coherent transitions between video frames. Efforts to tackle this challenge have induced the creation of diverse strategies and algorithms aimed at mitigating these unwanted consequences. This comprehensive review extensively examines the latest progress in the realm of TVS. It thoroughly investigates emerging methodologies, shedding light on the fundamental concepts and mechanisms utilized for proficient video synthesis. This survey also illuminates their inherent strengths, limitations, appropriate applications, and potential avenues for future development.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-03
# 抑うつ検出のためのML分類アルゴリズムとNLP手法の評価:実験的検討

Assessing ML Classification Algorithms and NLP Techniques for Depression Detection: An Experimental Case Study ( http://arxiv.org/abs/2404.04284v1 )

ライセンス: Link先を確認
Giuliano Lorenzoni, Cristina Tavares, Nathalia Nascimento, Paulo Alencar, Donald Cowan, (参考訳) うつ病は世界中で何百万人もの人々に影響を与えており、最も一般的な精神疾患の1つとなっている。 早期の精神障害検出は、公衆衛生機関のコストを削減し、他の主要な合併症を防ぐことができる。 さらに、うつ病の診断は専門家に大きく依存し、時間を要するため、専門職の不足も非常に懸念されている。 近年の研究では、機械学習(ML)と自然言語処理(NLP)のツールや技術がうつ病の診断を著しく妨げていることが証明されている。 しかし, 外傷後ストレス障害 (PTSD) などの他の症状が存在するうつ病検出アプローチの評価には, 依然としていくつかの課題がある。 これらの課題には、データクリーニングと前処理技術、特徴選択、適切なML分類アルゴリズムといった観点から代替品を評価することが含まれる。 本稿では,データクリーニングや前処理,特徴選択,パラメータ設定,モデル選択など,さまざまなML分類器を比較するケーススタディに基づいて,このような評価を行う。 このケーススタディは、うつ病、不安、PTSDなどの精神疾患の診断を支援するために設計された、Distress Analysis Interview Corpus - Wizard-of-Oz (DAIC-WOZ)データセットに基づいている。 代替技術の評価に加えて、Random ForestモデルとXGBoostモデルで84%の精度でモデルを構築することができました。

Depression has affected millions of people worldwide and has become one of the most common mental disorders. Early mental disorder detection can reduce costs for public health agencies and prevent other major comorbidities. Additionally, the shortage of specialized personnel is very concerning since Depression diagnosis is highly dependent on expert professionals and is time-consuming. Recent research has evidenced that machine learning (ML) and Natural Language Processing (NLP) tools and techniques have significantly bene ted the diagnosis of depression. However, there are still several challenges in the assessment of depression detection approaches in which other conditions such as post-traumatic stress disorder (PTSD) are present. These challenges include assessing alternatives in terms of data cleaning and pre-processing techniques, feature selection, and appropriate ML classification algorithms. This paper tackels such an assessment based on a case study that compares different ML classifiers, specifically in terms of data cleaning and pre-processing, feature selection, parameter setting, and model choices. The case study is based on the Distress Analysis Interview Corpus - Wizard-of-Oz (DAIC-WOZ) dataset, which is designed to support the diagnosis of mental disorders such as depression, anxiety, and PTSD. Besides the assessment of alternative techniques, we were able to build models with accuracy levels around 84% with Random Forest and XGBoost models, which is significantly higher than the results from the comparable literature which presented the level of accuracy of 72% from the SVM model.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-03
# MIMIR: ドメインエキスパートのためのパーソナライズされたエージェントチューニングプラットフォーム

MIMIR: A Streamlined Platform for Personalized Agent Tuning in Domain Expertise ( http://arxiv.org/abs/2404.04285v1 )

ライセンス: Link先を確認
Chunyuan Deng, Xiangru Tang, Yilun Zhao, Hanming Wang, Haoran Wang, Wangchunshu Zhou, Arman Cohan, Mark Gerstein, (参考訳) 近年,大規模言語モデル (LLM) は対話型エージェントに進化し,計画やツールの使用,タスク実行などさまざまなタスクに精通している。 しかし、特定のエージェントチューニングがなければ、LLaMAのようなオープンソースモデルは、特に微調整のためのエージェントチューニングデータセットが不足していることを考えると、GPT-4の効率に合わせるのに苦労している。 これに対応するために, ユーザがプライベート知識と公開可能な, 法的に準拠したデータセットの両方を, カスタマイズ可能なパイプラインを提供する合理化プラットフォームである \textbf{personalized agent tuning} を紹介した。 さらに \textsc{Mimir} は、同じ入力から一般的な命令チューニングデータセットの生成をサポートする。 このデュアル機能は、プラットフォームを通じて開発された言語エージェントが、特定のエージェント能力と一般的な能力の両方を持っていることを保証します。 この機能は、パーソナライズされたファイルのアップロードからワンクリックエージェントの微調整まで、あらゆることを容易にする。

Recently, large language models (LLMs) have evolved into interactive agents, proficient in planning, tool use, and task execution across a wide variety of tasks. However, without specific agent tuning, open-source models like LLaMA currently struggle to match the efficiency of GPT- 4, particularly given the scarcity of agent-tuning datasets for fine-tuning. In response, we introduce \textsc{Mimir}: a streamlined platform offering a customizable pipeline that enables users to leverage both private knowledge and publicly available, legally compliant datasets at scale for \textbf{personalized agent tuning}. Additionally, \textsc{Mimir} supports the generation of general instruction-tuning datasets from the same input. This dual capability ensures that language agents developed through the platform possess both specific agent abilities and general competencies. \textsc{Mimir} integrates these features into a cohesive end-to-end platform, facilitating everything from the uploading of personalized files to one-click agent fine-tuning.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-03
# JDEC: 継続的コサイン係数の強化によるJPEGデコーディング

JDEC: JPEG Decoding via Enhanced Continuous Cosine Coefficients ( http://arxiv.org/abs/2404.05558v1 )

ライセンス: Link先を確認
Woo Kyoung Han, Sunghoon Im, Jaedeok Kim, Kyong Hwan Jin, (参考訳) 本稿では,コサインの連続的定式化による局所的暗黙的ニューラル表現を用いたJPEG画像デコーディングの実践的手法を提案する。 JPEGアルゴリズムは、離散コサイン変換(DCT)スペクトルを著しく定量化し、高い圧縮率を達成する。 歪みスペクトルを復元する品質劣化問題に対処する連続コサインスペクトル推定器を設計した。 ローカルDCTの定式化を活用することで,ネットワークは復号化とアップサンプリングを同時に行うことができる。 提案モデルでは,従来のJPEGデコーダを使わずに,1つの事前学習モデルを用いて,圧縮画像を異なる品質要因に直接デコードすることができる。 その結果,フレキシブルカラー画像JPEGアーティファクト除去タスクにおいて,最先端の性能を実現することができた。 ソースコードはhttps://github.com/WooKyoungHan/JDEC.comで公開されています。

We propose a practical approach to JPEG image decoding, utilizing a local implicit neural representation with continuous cosine formulation. The JPEG algorithm significantly quantizes discrete cosine transform (DCT) spectra to achieve a high compression rate, inevitably resulting in quality degradation while encoding an image. We have designed a continuous cosine spectrum estimator to address the quality degradation issue that restores the distorted spectrum. By leveraging local DCT formulations, our network has the privilege to exploit dequantization and upsampling simultaneously. Our proposed model enables decoding compressed images directly across different quality factors using a single pre-trained model without relying on a conventional JPEG decoder. As a result, our proposed network achieves state-of-the-art performance in flexible color image JPEG artifact removal tasks. Our source code is available at https://github.com/WooKyoungHan/JDEC.
翻訳日:2024-04-09 14:05:34 公開日:2024-04-03
# 分布ロバスト政策とリャプノフ認証学習

Distributionally Robust Policy and Lyapunov-Certificate Learning ( http://arxiv.org/abs/2404.03017v1 )

ライセンス: Link先を確認
Kehan Long, Jorge Cortes, Nikolay Atanasov, (参考訳) 本稿では, モデル不確実性下での制御系における制御系に対する制御器と制御器の安定化を, 分散的に頑健に行うための新しい手法を提案する。 不確実なシステムの安定性を保証するコントローラを設計する上で重要な課題は、オンライン展開中のモデルパラメトリック不確実性の正確な決定と適応である。 我々は、リアプノフ証明書の単調な減少を保証するために、リアプノフ微分チャンス制約を分布的に頑健に定式化することで、この問題に取り組む。 確率測度の空間を扱う際の計算複雑性を避けるため、リアプノフ微分制約を満たす決定論的凸制約の形で十分条件を同定する。 この条件をニューラルネットワークベースのコントローラをトレーニングする損失関数に統合し,結果のクローズループシステムでは,アウト・オブ・ディストリビューション(OoD)モデルの不確実性であっても,その平衡のグローバルな漸近安定性が高い信頼性で証明可能であることを示す。 提案手法の有効性と有効性を示すため,シミュレーションにおける2つの制御問題における不確実性に依存しないベースラインアプローチと強化学習アプローチとの比較を行った。

This article presents novel methods for synthesizing distributionally robust stabilizing neural controllers and certificates for control systems under model uncertainty. A key challenge in designing controllers with stability guarantees for uncertain systems is the accurate determination of and adaptation to shifts in model parametric uncertainty during online deployment. We tackle this with a novel distributionally robust formulation of the Lyapunov derivative chance constraint ensuring a monotonic decrease of the Lyapunov certificate. To avoid the computational complexity involved in dealing with the space of probability measures, we identify a sufficient condition in the form of deterministic convex constraints that ensures the Lyapunov derivative constraint is satisfied. We integrate this condition into a loss function for training a neural network-based controller and show that, for the resulting closed-loop system, the global asymptotic stability of its equilibrium can be certified with high confidence, even with Out-of-Distribution (OoD) model uncertainties. To demonstrate the efficacy and efficiency of the proposed methodology, we compare it with an uncertainty-agnostic baseline approach and several reinforcement learning approaches in two control problems in simulation.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-03
# ラベル改訂とデータ選択による知識蒸留の改善

Improve Knowledge Distillation via Label Revision and Data Selection ( http://arxiv.org/abs/2404.03693v1 )

ライセンス: Link先を確認
Weichao Lan, Yiu-ming Cheung, Qing Xu, Buhua Liu, Zhikai Hu, Mengke Li, Zhenghua Chen, (参考訳) 知識蒸留(KD)は,大規模な教師モデルから,効率的なネットワーク開発のための軽量学生モデルへ知識を伝達することを目的とした,モデル圧縮の分野で広く利用されている技術である。 バニラKD法は,教師の予測をソフトラベルとみなし,学生モデルの訓練を監督する。 バニラKDに基づいて,学生モデルの性能向上のための様々なアプローチが開発されている。 しかし,教師モデルからの指導の信頼性を考慮に入れた従来の手法はほとんどない。 誤った予測による監督は、学生モデルのトレーニングを誤解させる可能性がある。 そこで本研究では, 不正な管理を正すラベルリビジョンと, 不正な管理の影響を軽減するため, 蒸留に適したサンプルを選択するデータ選択という2つの側面からこの問題に取り組むことを提案する。 前者では,教師の不正確な予測を基礎的真理を用いて修正することを提案する。 後者では,教師が指導する適切なトレーニングサンプルを選択するためのデータ選択手法を導入し,誤予測の影響をある程度低減する。 実験の結果,提案手法の有効性を実証し, 他の蒸留法と組み合わせることで, 性能を向上できることを示した。

Knowledge distillation (KD) has become a widely used technique in the field of model compression, which aims to transfer knowledge from a large teacher model to a lightweight student model for efficient network development. In addition to the supervision of ground truth, the vanilla KD method regards the predictions of the teacher as soft labels to supervise the training of the student model. Based on vanilla KD, various approaches have been developed to further improve the performance of the student model. However, few of these previous methods have considered the reliability of the supervision from teacher models. Supervision from erroneous predictions may mislead the training of the student model. This paper therefore proposes to tackle this problem from two aspects: Label Revision to rectify the incorrect supervision and Data Selection to select appropriate samples for distillation to reduce the impact of erroneous supervision. In the former, we propose to rectify the teacher's inaccurate predictions using the ground truth. In the latter, we introduce a data selection technique to choose suitable training samples to be supervised by the teacher, thereby reducing the impact of incorrect predictions to some extent. Experiment results demonstrate the effectiveness of our proposed method, and show that our method can be combined with other distillation approaches, improving their performance.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-03
# 自動運転車の受容における文化的影響

Cultural influence on autonomous vehicles acceptance ( http://arxiv.org/abs/2404.03694v1 )

ライセンス: Link先を確認
Chowdhury Shahriar Muzammel, Maria Spichkova, James Harland, (参考訳) 自動運転車やその他のインテリジェントトランスポートシステムは急速に進化し、世界中で展開されている。 これまでの研究では、自動運転車に対する認識とそれらに対する態度は、応答者の年齢、教育水準、背景など、様々な属性に依存することが示されている。 年齢や教育水準に関するこれらの知見は概して一様であり、若い回答者は高い教育水準の者と同様に、通常より自律走行車を受け入れていることを示している。 しかし、文化などの要因の影響は明らかになっていない。 本稿では,ホフスティーデ文化モデルを用いて,自動運転車の受容と国民文化の関係を分析する。

Autonomous vehicles and other intelligent transport systems have been evolving rapidly and are being increasingly deployed worldwide. Previous work has shown that perceptions of autonomous vehicles and attitudes towards them depend on various attributes, including the respondent's age, education level and background. These findings with respect to age and educational level are generally uniform, such as showing that younger respondents are typically more accepting of autonomous vehicles, as are those with higher education levels. However the influence of factors such as culture are much less clear cut. In this paper we analyse the relationship between acceptance of autonomous vehicles and national culture by means of the well-known Hofstede cultural model.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-03
# リモートセンシングにおける安全な損失画像圧縮のための畳み込み変分オートエンコーダ

Convolutional variational autoencoders for secure lossy image compression in remote sensing ( http://arxiv.org/abs/2404.03696v1 )

ライセンス: Link先を確認
Alessandro Giuliano, S. Andrew Gadsden, Waleed Hilal, John Yawney, (参考訳) リモートセンシングデータの量は、主にセンサーの配列を備えた空間と空気のプラットフォームが多すぎるため、急速に増加しています。 ハードウェアとバッテリの制約が限られているため、データは処理のために地球に送信される。 大量のデータとセキュリティ上の懸念から、このデータの地球への送信コストを最小限に抑えつつ、復元品質を維持できる新しい圧縮と暗号化技術が求められている。 本研究では,畳み込み変分オートエンコーダ(CVAE)に基づく画像圧縮について検討した。 CVAEは、JPEG2000のような従来の圧縮手法を圧縮ベンチマークデータセットのかなりのマージンで上回ることが示されている。 提案モデルでは, CVAEの強みを生かし, データを高洞察の潜伏空間に抽象化し, エントロピーボトルネックの利用と組み合わせることで, 圧縮性と復元品質の最適バランスを求めることができる。 バランスは、速度歪曲線を表す複合損失関数を最適化することにより達成される。

The volume of remote sensing data is experiencing rapid growth, primarily due to the plethora of space and air platforms equipped with an array of sensors. Due to limited hardware and battery constraints the data is transmitted back to Earth for processing. The large amounts of data along with security concerns call for new compression and encryption techniques capable of preserving reconstruction quality while minimizing the transmission cost of this data back to Earth. This study investigates image compression based on convolutional variational autoencoders (CVAE), which are capable of substantially reducing the volume of transmitted data while guaranteeing secure lossy image reconstruction. CVAEs have been demonstrated to outperform conventional compression methods such as JPEG2000 by a substantial margin on compression benchmark datasets. The proposed model draws on the strength of the CVAEs capability to abstract data into highly insightful latent spaces, and combining it with the utilization of an entropy bottleneck is capable of finding an optimal balance between compressibility and reconstruction quality. The balance is reached by optimizing over a composite loss function that represents the rate-distortion curve.
翻訳日:2024-04-08 17:55:13 公開日:2024-04-03
# 複数のサロゲートを用いた治療効果の推定:サロゲートスコアとサロゲート指標の役割

Estimating Treatment Effects using Multiple Surrogates: The Role of the Surrogate Score and the Surrogate Index ( http://arxiv.org/abs/1603.09326v4 )

ライセンス: Link先を確認
Susan Athey, Raj Chetty, Guido Imbens, Hyunseung Kang, (参考訳) 治療の長期的な効果を見積もるのは、多くの分野において興味深いことである。 このような治療効果を推定する一般的な課題は、政策決定に必要な時間枠で長期的な成果が守られないことである。 この欠落したデータ問題を解決する1つのアプローチは、治療と結果が統計的代理の独立条件である条件を満たす場合、しばしば統計代理と呼ばれる中間結果に対する治療効果を分析することである。 代理状態の妥当性はしばしば議論の余地がある。 ここでは、現代のデータセットにおいて、研究者は治療と長期の利益の間の因果関係にかかわると考えられる中間的な結果の数十から数千の多数を観察することが多いという事実を活用する。 個々のプロキシが統計的代理基準を満足していないとしても、複数のプロキシを使用することは因果推論に有用である。 本研究は, 主に, 治療指標とサロゲートに関するデータを含む実験試料と, サロゲートに関する情報を含む観察試料と, 一次結果を含む2つの試料のセットに焦点を当てた。 平均処理効果をサロゲイト仮定を総合的に満足するプロキシの高次元ベクトルで同定・推定し、サロゲイト仮定の違反からバイアスを導出し、実験例でも一次結果が観察されたとしても、サロゲイトの使用から得られる情報が存在することを示す。

Estimating the long-term effects of treatments is of interest in many fields. A common challenge in estimating such treatment effects is that long-term outcomes are unobserved in the time frame needed to make policy decisions. One approach to overcome this missing data problem is to analyze treatments effects on an intermediate outcome, often called a statistical surrogate, if it satisfies the condition that treatment and outcome are independent conditional on the statistical surrogate. The validity of the surrogacy condition is often controversial. Here we exploit that fact that in modern datasets, researchers often observe a large number, possibly hundreds or thousands, of intermediate outcomes, thought to lie on or close to the causal chain between the treatment and the long-term outcome of interest. Even if none of the individual proxies satisfies the statistical surrogacy criterion by itself, using multiple proxies can be useful in causal inference. We focus primarily on a setting with two samples, an experimental sample containing data about the treatment indicator and the surrogates and an observational sample containing information about the surrogates and the primary outcome. We state assumptions under which the average treatment effect be identified and estimated with a high-dimensional vector of proxies that collectively satisfy the surrogacy assumption, and derive the bias from violations of the surrogacy assumption, and show that even if the primary outcome is also observed in the experimental sample, there is still information to be gained from using surrogates.
翻訳日:2024-04-07 23:24:36 公開日:2024-04-03
# マルチアーマッドバンド入門

Introduction to Multi-Armed Bandits ( http://arxiv.org/abs/1904.07272v8 )

ライセンス: Link先を確認
Aleksandrs Slivkins, (参考訳) マルチアームは、不確実性の下で意思決定を行うアルゴリズムの、単純だが非常に強力なフレームワークである。 何年にもわたって膨大な量の研究が蓄積され、いくつかの書籍や調査でカバーされた。 この本は、より入門的で教科書的な主題の扱いを提供する。 各章は特定の作業に取り組み、自己完結した、教育可能な技術的紹介と、さらなる発展の簡単なレビューを提供する。 本書は次のように構成されている。 最初の4章はID報酬に関するもので、基本的なモデルから不可能な結果、ベイジアン前科からリプシッツ前科までである。 次の3章は敵の報酬をカバーしており、フルフィードバック版から敵の盗賊、線形報酬付き拡張、組合せ的に構造化されたアクションまでである。 第8章は文脈的盗賊であり、IIDと敵的盗賊の間の中間的基盤であり、報酬分布の変化は観測可能な文脈によって完全に説明される。 最後の3章は、繰り返しゲームで学ぶことから、供給と予算の制約のあるバンディットから、インセンティブの存在下での探索まで、経済学とのつながりをカバーしている。 虫垂は、濃度とKL-分岐の十分な背景を提供する。 類似情報付きバンド」、「ナプサック付きバンド」、および「バンドとエージェント」の章は、それぞれのトピックに関する独立した調査として消費される。

Multi-armed bandits a simple but very powerful framework for algorithms that make decisions over time under uncertainty. An enormous body of work has accumulated over the years, covered in several books and surveys. This book provides a more introductory, textbook-like treatment of the subject. Each chapter tackles a particular line of work, providing a self-contained, teachable technical introduction and a brief review of the further developments; many of the chapters conclude with exercises. The book is structured as follows. The first four chapters are on IID rewards, from the basic model to impossibility results to Bayesian priors to Lipschitz rewards. The next three chapters cover adversarial rewards, from the full-feedback version to adversarial bandits to extensions with linear rewards and combinatorially structured actions. Chapter 8 is on contextual bandits, a middle ground between IID and adversarial bandits in which the change in reward distributions is completely explained by observable contexts. The last three chapters cover connections to economics, from learning in repeated games to bandits with supply/budget constraints to exploration in the presence of incentives. The appendix provides sufficient background on concentration and KL-divergence. The chapters on "bandits with similarity information", "bandits with knapsacks" and "bandits and agents" can also be consumed as standalone surveys on the respective topics.
翻訳日:2024-04-07 23:24:36 公開日:2024-04-03
# モデルに基づくアタリ強化学習

Model-Based Reinforcement Learning for Atari ( http://arxiv.org/abs/1903.00374v5 )

ライセンス: Link先を確認
Lukasz Kaiser, Mohammad Babaeizadeh, Piotr Milos, Blazej Osinski, Roy H Campbell, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey Levine, Afroz Mohiuddin, Ryan Sepassi, George Tucker, Henryk Michalewski, (参考訳) モデルフリー強化学習(RL)は、画像観察からでも、アタリゲームのような複雑なタスクの効果的なポリシーを学ぶために用いられる。 しかし、これは通常、非常に多くの相互作用を必要とします -- 実際、人間が同じゲームを学ぶ必要があるよりもずっとです。 どうしてそんなに早く学べるのでしょうか。 答えの一部は、人々がゲームがどのように機能するかを学び、どのアクションが望ましい結果をもたらすかを予測できるということです。 本稿では,エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解決するために,動画予測モデルがいかに有効かを検討する。 シミュレートされたポリシー学習(SimPLe)は,ビデオ予測モデルに基づく完全モデルベースディープRLアルゴリズムである。 実験では,エージェントと環境間の100kの相互作用の少ないアタリゲームにおいて,2時間のリアルタイムプレイに対応するSimPLeを評価した。 ほとんどのゲームでは、SimPLeは最先端のモデルフリーアルゴリズムより優れており、一部のゲームでは桁違いに優れている。

Model-free reinforcement learning (RL) can be used to learn effective policies for complex tasks, such as Atari games, even from image observations. However, this typically requires very large amounts of interaction -- substantially more, in fact, than a human would need to learn the same games. How can people learn so quickly? Part of the answer may be that people can learn how the game works and predict which actions will lead to desirable outcomes. In this paper, we explore how video prediction models can similarly enable agents to solve Atari games with fewer interactions than model-free methods. We describe Simulated Policy Learning (SimPLe), a complete model-based deep RL algorithm based on video prediction models and present a comparison of several model architectures, including a novel architecture that yields the best results in our setting. Our experiments evaluate SimPLe on a range of Atari games in low data regime of 100k interactions between the agent and the environment, which corresponds to two hours of real-time play. In most games SimPLe outperforms state-of-the-art model-free algorithms, in some games by over an order of magnitude.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-03
# 分散学習における疎通信のためのグローバルモーメント圧縮

Global Momentum Compression for Sparse Communication in Distributed Learning ( http://arxiv.org/abs/1905.12948v3 )

ライセンス: Link先を確認
Chang-Wei Shi, Shen-Yi Zhao, Yin-Peng Xie, Hao Gao, Wu-Jun Li, (参考訳) データの急速な成長に伴い、分散運動量確率勾配降下〜(DMSGD)は分散学習、特に大規模深層モデルの訓練に広く用いられている。 ネットワークのレイテンシと帯域幅の制限により、コミュニケーションは分散学習のボトルネックとなっている。 疎化勾配を用いた通信圧縮は,通信コスト削減のために広く利用されている。 DMSGDにおけるスパース通信に関するすべての既存の研究は局所運動量を使用し、各作業者が局所的に計算した確率勾配のみを蓄積する。 本稿では,疎通信のための新しい手法である \emph{\underline{g}}lobal \emph{\underline{m}}omentum \emph{\underline{c}}ompression~(GMC)を提案する。 局所運動量を利用する既存の作品とは異なり、GCCはグローバル運動量を利用する。 さらに,よりアグレッシブなスペーシフィケーション圧縮機(例えばRBGS)を用いた場合の収束性能を向上させるため,GMCをGMC+に拡張する。 理論的には GMC と GMC+ の収束を証明している。 我々の知る限りでは、分散学習におけるスパースコミュニケーションのグローバルな勢いを導入する最初の研究である。 実験の結果, GMCとGMC+は, 局所運動量と比較すると, 試験精度が向上し, 特に非IIDデータ分布下では, より高速な収束が期待できることがわかった。

With the rapid growth of data, distributed momentum stochastic gradient descent~(DMSGD) has been widely used in distributed learning, especially for training large-scale deep models. Due to the latency and limited bandwidth of the network, communication has become the bottleneck of distributed learning. Communication compression with sparsified gradient, abbreviated as \emph{sparse communication}, has been widely employed to reduce communication cost. All existing works about sparse communication in DMSGD employ local momentum, in which the momentum only accumulates stochastic gradients computed by each worker locally. In this paper, we propose a novel method, called \emph{\underline{g}}lobal \emph{\underline{m}}omentum \emph{\underline{c}}ompression~(GMC), for sparse communication. Different from existing works that utilize local momentum, GMC utilizes global momentum. Furthermore, to enhance the convergence performance when using more aggressive sparsification compressors (e.g., RBGS), we extend GMC to GMC+. We theoretically prove the convergence of GMC and GMC+. To the best of our knowledge, this is the first work that introduces global momentum for sparse communication in distributed learning. Empirical results demonstrate that, compared with the local momentum counterparts, our GMC and GMC+ can achieve higher test accuracy and exhibit faster convergence, especially under non-IID data distribution.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-03
# 実世界自動運転のためのシミュレーションに基づく強化学習

Simulation-based reinforcement learning for real-world autonomous driving ( http://arxiv.org/abs/1911.12905v4 )

ライセンス: Link先を確認
Błażej Osiński, Adam Jakubowski, Piotr Miłoś, Paweł Zięcina, Christopher Galias, Silviu Homoceanu, Henryk Michalewski, (参考訳) 実物大の車両を制御する駆動システムを実現するために,シミュレーションにおいて強化学習を用いる。 駆動ポリシは、単一のカメラからのRGBイメージと、それらのセマンティックセグメンテーションを入力として取り込む。 主に合成データを使用し、ラベル付き実世界のデータはセグメンテーションネットワークのトレーニングにのみ現れる。 シミュレーションや合成データにおける強化学習の利用は、コスト削減とエンジニアリングの努力によって動機づけられる。 実世界の実験では、シモン・トゥ・リアル・ポリシー・トランスファーに成功したことを確認した。 広範な評価に基づいて、認識、制御、トレーニングに関する設計決定が現実世界のパフォーマンスにどのように影響するかを分析する。

We use reinforcement learning in simulation to obtain a driving system controlling a full-size real-world vehicle. The driving policy takes RGB images from a single camera and their semantic segmentation as input. We use mostly synthetic data, with labelled real-world data appearing only in the training of the segmentation network. Using reinforcement learning in simulation and synthetic data is motivated by lowering costs and engineering effort. In real-world experiments we confirm that we achieved successful sim-to-real policy transfer. Based on the extensive evaluation, we analyze how design decisions about perception, control, and training impact the real-world performance.
翻訳日:2024-04-05 21:09:13 公開日:2024-04-03
# 適応性に直面する一般化 : ベイズ的視点

Generalization in the Face of Adaptivity: A Bayesian Perspective ( http://arxiv.org/abs/2106.10761v3 )

ライセンス: Link先を確認
Moshe Shenfeld, Katrina Ligett, (参考訳) 適応的に選択されたクエリによるデータサンプルの繰り返し使用は、過度な適合につながる可能性があるため、サンプル上のクエリの実証的な評価は、基礎となるデータ分布に関して、その平均値から著しく逸脱する。 単純なノイズ付加アルゴリズムはこの問題を防ぐのに十分であり、これらのアルゴリズムの差分プライバシーに基づく分析は、漸近的に最適なクエリ数を扱うことができることを示している。 しかし、差分プライバシーの最悪の性質は、高濃度のクエリやより複雑なアルゴリズムを導入しても、そのようなノイズをクエリの範囲にスケーリングすることを必要とする。 本稿では,非有界クエリにも拡張可能な分散依存性保証を,ノイズ付加アルゴリズムですでに実現していることを示す。 この改善は、適応データ分析のコア問題に照らしている新しい特徴に起因している。 提案手法は,過去のクエリに対する応答において,データサンプルに関する情報がどの程度エンコードされたかを示すベイズ因子との新しいクエリの共分散から,適応性の害が生じることを示す。 次に、この特徴を利用して、この共分散を束縛できる新しいデータ依存の安定性の概念を導入する。

Repeated use of a data sample via adaptively chosen queries can rapidly lead to overfitting, wherein the empirical evaluation of queries on the sample significantly deviates from their mean with respect to the underlying data distribution. It turns out that simple noise addition algorithms suffice to prevent this issue, and differential privacy-based analysis of these algorithms shows that they can handle an asymptotically optimal number of queries. However, differential privacy's worst-case nature entails scaling such noise to the range of the queries even for highly-concentrated queries, or introducing more complex algorithms. In this paper, we prove that straightforward noise-addition algorithms already provide variance-dependent guarantees that also extend to unbounded queries. This improvement stems from a novel characterization that illuminates the core problem of adaptive data analysis. We show that the harm of adaptivity results from the covariance between the new query and a Bayes factor-based measure of how much information about the data sample was encoded in the responses given to past queries. We then leverage this characterization to introduce a new data-dependent stability notion that can bound this covariance.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-03
# 変圧器と自然言語説明の組み合わせ

Combining Transformers with Natural Language Explanations ( http://arxiv.org/abs/2110.00125v3 )

ライセンス: Link先を確認
Federico Ruggeri, Marco Lippi, Paolo Torroni, (参考訳) 多くのNLPアプリケーションは解釈可能なモデルを必要とする。 しかし、変圧器を含む多くの成功したニューラルアーキテクチャは、依然として効果的な解釈方法が欠如している。 可能な解決策は、ドメイン知識から説明を構築することに依存する可能性がある。 そこで本稿では,外部記憶を用いて自然言語記述を格納し,それらを用いて分類出力を説明するトランスフォーマーモデルの拡張を提案する。 法的なテキスト分析と議論マイニングという2つの領域を実験的に評価し,分類性能を維持したり改善したりしながら,本手法が関連する説明を得られることを示す。

Many NLP applications require models to be interpretable. However, many successful neural architectures, including transformers, still lack effective interpretation methods. A possible solution could rely on building explanations from domain knowledge, which is often available as plain, natural language text. We thus propose an extension to transformer models that makes use of external memories to store natural language explanations and use them to explain classification outputs. We conduct an experimental evaluation on two domains, legal text analysis and argument mining, to show that our approach can produce relevant explanations while retaining or even improving classification performance.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-03
# 大量医療記録におけるマルチレベル確率最適化

Multilevel Stochastic Optimization for Imputation in Massive Medical Data Records ( http://arxiv.org/abs/2110.09680v3 )

ライセンス: Link先を確認
Wenrui Li, Xiaoyu Wang, Yuetian Sun, Snezana Milanovic, Mark Kon, Julio Enrique Castrillon-Candas, (参考訳) 多くのデータセットが欠落する数値データをかなり含んでいることは、長い間認識されてきた問題である。 機械学習メソッドをデータセットに適用するための潜在的に重要な述語は、この問題に対処することである。 しかし、これは難しい課題です。 本稿では,近年開発されたマルチレベル確率最適化手法を,大規模医療記録におけるインキュベーション問題に適用する。 この手法は計算応用数学の技術に基づいており、高精度である。 特に、Best Linear Unbiased Predictor (BLUP)では、このマルチレベル定式化は正確であり、より高速でより数値的に安定である。 これにより、大規模なデータセットに対するデータ計算問題にKriging法を実践的に適用することができる。 本手法は,NIS (National In patient Sample) データ記録, HCUP (Healthcare Cost and utilization Project), Agency for Healthcare Research and Qualityから得られたデータに基づいて検証する。 数値計算の結果, マルチレベル法は現在の手法よりも有意に優れ, 数値的に堅牢であることがわかった。 HCUPの最近のレポートで推奨されている手法に比べて精度が優れている。 ベンチマークテストでは、最大75%エラーが減少する。 さらに、この結果は差別的深層学習のような最近の最先端の手法よりも優れている。

It has long been a recognized problem that many datasets contain significant levels of missing numerical data. A potentially critical predicate for application of machine learning methods to datasets involves addressing this problem. However, this is a challenging task. In this paper, we apply a recently developed multi-level stochastic optimization approach to the problem of imputation in massive medical records. The approach is based on computational applied mathematics techniques and is highly accurate. In particular, for the Best Linear Unbiased Predictor (BLUP) this multi-level formulation is exact, and is significantly faster and more numerically stable. This permits practical application of Kriging methods to data imputation problems for massive datasets. We test this approach on data from the National Inpatient Sample (NIS) data records, Healthcare Cost and Utilization Project (HCUP), Agency for Healthcare Research and Quality. Numerical results show that the multi-level method significantly outperforms current approaches and is numerically robust. It has superior accuracy as compared with methods recommended in the recent report from HCUP. Benchmark tests show up to 75% reductions in error. Furthermore, the results are also superior to recent state of the art methods such as discriminative deep learning.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-03
# MCUNetV2:Tiny Deep Learningのためのメモリ効率の良いパッチベース推論

MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning ( http://arxiv.org/abs/2110.15352v2 )

ライセンス: Link先を確認
Ji Lin, Wei-Ming Chen, Han Cai, Chuang Gan, Song Han, (参考訳) マイクロコントローラユニット(MCU)の微妙な深層学習は、メモリサイズが制限されているため困難である。 メモリボトルネックは、畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。 この問題を軽減するために,特徴マップの空間領域のみで動作する汎用的なパッチ・バイ・パッチ・推論スケジューリングを提案し,ピークメモリを大幅に削減する。 しかし、単純実装は重複するパッチと計算オーバーヘッドをもたらす。 さらに、受信フィールドとFLOPを後段にシフトさせ、計算オーバーヘッドを低減するために、ネットワーク再分配を提案する。 手動でレセプティブフィールドを再配布することは難しい。 ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。 パッチベースの推論は、既存のネットワークのピークメモリ使用量を4~8倍に効果的に削減する。 MCUNetV2はニューラルネットワークと共同設計され、MCU(71.8%)でImageNetの精度を記録し、32kB SRAMのビジュアルウェイクワードデータセット上で90%の精度を達成する。 MCUNetV2はまた、小さなデバイスでオブジェクト検出をブロックし、Pascal VOCでは最先端の結果に比べて16.9%高いmAPを達成した。 本研究は,SmallMLにおけるメモリボトルネックに対処し,画像分類以外の様々な視覚応用の道を開いた。

Tiny deep learning on microcontroller units (MCUs) is challenging due to the limited memory size. We find that the memory bottleneck is due to the imbalanced memory distribution in convolutional neural network (CNN) designs: the first several blocks have an order of magnitude larger memory usage than the rest of the network. To alleviate this issue, we propose a generic patch-by-patch inference scheduling, which operates only on a small spatial region of the feature map and significantly cuts down the peak memory. However, naive implementation brings overlapping patches and computation overhead. We further propose network redistribution to shift the receptive field and FLOPs to the later stage and reduce the computation overhead. Manually redistributing the receptive field is difficult. We automate the process with neural architecture search to jointly optimize the neural architecture and inference scheduling, leading to MCUNetV2. Patch-based inference effectively reduces the peak memory usage of existing networks by 4-8x. Co-designed with neural networks, MCUNetV2 sets a record ImageNet accuracy on MCU (71.8%), and achieves >90% accuracy on the visual wake words dataset under only 32kB SRAM. MCUNetV2 also unblocks object detection on tiny devices, achieving 16.9% higher mAP on Pascal VOC compared to the state-of-the-art result. Our study largely addressed the memory bottleneck in tinyML and paved the way for various vision applications beyond image classification.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-03
# 量子タラグランド、KKL、フリードガットの定理と量子ブール関数の学習可能性

Quantum Talagrand, KKL and Friedgut's theorems and the learnability of quantum Boolean functions ( http://arxiv.org/abs/2209.07279v3 )

ライセンス: Link先を確認
Cambyse Rouzé, Melchior Wirth, Haonan Zhang, (参考訳) ブール関数の影響の分析から、KKL Theorem、FriedgutのJunta Theorem、幾何学的影響に対するTalagrandの分散不等式など、関連する3つの結果を拡張する。 この結果は、最近研究された超収縮率と勾配推定の併用によって導かれる。 これらのジェネリックツールは、連続変数量子システムのような量子情報理論に関連する無限次元の例を含む、量子ハイパーキューブのケースを超える一般のフォン・ノイマン代数的な設定において、これらの結果の一般化を導出することを可能にする。 最後に、等尺型不等式の非可換拡張、量子回路の複雑性の低下、量子可観測値の学習可能性について、結果の意味についてコメントする。

We extend three related results from the analysis of influences of Boolean functions to the quantum setting, namely the KKL Theorem, Friedgut's Junta Theorem and Talagrand's variance inequality for geometric influences. Our results are derived by a joint use of recently studied hypercontractivity and gradient estimates. These generic tools also allow us to derive generalizations of these results in a general von Neumann algebraic setting beyond the case of the quantum hypercube, including examples in infinite dimensions relevant to quantum information theory such as continuous variables quantum systems. Finally, we comment on the implications of our results as regards to noncommutative extensions of isoperimetric type inequalities, quantum circuit complexity lower bounds and the learnability of quantum observables.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-03
# 確率最適化へのリスク適応的アプローチ:サーベイ

Risk-Adaptive Approaches to Stochastic Optimization: A Survey ( http://arxiv.org/abs/2212.00856v3 )

ライセンス: Link先を確認
Johannes O. Royset, (参考訳) 不確実性は、エンジニアリング設計、データ駆動の問題、意思決定で広く利用されている。 仮定に固有のリスク・アバース性や曖昧さのため、リスクと関連する概念の尺度を用いて表現された保守的最適化モデルを定式化し、解決することで不確実性に対処することが一般的である。 過去4世紀におけるリスク対策の急速な発展について調査する。 金融工学の始まりから、工学と応用数学のほぼすべての分野への普及を振り返る。 凸解析に根ざしたリスク対策は、重要な計算的および理論的優位性を持つ不確実性を扱うための一般的な枠組みを提供する。 重要な事実を記述し、いくつかの具体的なアルゴリズムをリストアップし、さらに読むための参照の広範なリストを提供する。 この調査は、ユーティリティ理論と分散的ロバストな最適化との関係を思い出し、公正な機械学習のような新しいアプリケーション分野を指し示し、信頼性の尺度を定義している。

Uncertainty is prevalent in engineering design, data-driven problems, and decision making broadly. Due to inherent risk-averseness and ambiguity about assumptions, it is common to address uncertainty by formulating and solving conservative optimization models expressed using measures of risk and related concepts. We survey the rapid development of risk measures over the last quarter century. From their beginning in financial engineering, we recount the spread to nearly all areas of engineering and applied mathematics. Solidly rooted in convex analysis, risk measures furnish a general framework for handling uncertainty with significant computational and theoretical advantages. We describe the key facts, list several concrete algorithms, and provide an extensive list of references for further reading. The survey recalls connections with utility theory and distributionally robust optimization, points to emerging applications areas such as fair machine learning, and defines measures of reliability.
翻訳日:2024-04-05 21:01:43 公開日:2024-04-03
# 集中治療室における心拍数と血圧予測のためのトランスフォーマーベース拡散確率モデル

A Transformer-based Diffusion Probabilistic Model for Heart Rate and Blood Pressure Forecasting in Intensive Care Unit ( http://arxiv.org/abs/2301.06625v5 )

ライセンス: Link先を確認
Ping Chang, Huayu Li, Stuart F. Quan, Shuyang Lu, Shu-Fen Wung, Janet Roveda, Ao Li, (参考訳) 背景と目的:ICU(Intensive Care Unit)におけるバイタルサインモニタリングは,患者の迅速な介入を促進するために重要である。 これは正確な予測システムの必要性を浮き彫りにする。 そこで本研究では、ICUにおける心拍数(HR)、収縮血圧(SBP)、拡張型血圧(DBP)の予測のための新しい深層学習手法を提案する。 方法:MIMIC-IIIデータベースから24,886ドル(約2万2000円)のICU残高を抽出し,モデルをトレーニングし,テストした。 本研究では,トランスフォーマーを用いた拡散確率モデル(TDSTF),トランスフォーマーと拡散モデルを融合させて,バイタルサインの予測を行う。 TDSTFモデルは、ICUにおけるバイタルサインの予測における最先端のパフォーマンスを示し、他のモデルのバイタルサインの分布予測能力より優れ、計算効率が良くなった。 コードはhttps://github.com/PingChang818/TDSTFで公開されている。 結果: 調査の結果, TDSTF は, 標準平均階数確率スコア (SACRPS) が0.4438$, 平均正方形誤差 (MSE) が0.4168$, 改善が18.9\%, 改善が34.3\%であった。 TDSTFの推論速度は、最高のベースラインモデルよりも17ドル以上速い。 結論: TDSTFはICUにおけるバイタルサインを予測するための効率的かつ効率的な解であり, この分野の他のモデルと比較して有意に改善されている。

Background and Objective: Vital sign monitoring in the Intensive Care Unit (ICU) is crucial for enabling prompt interventions for patients. This underscores the need for an accurate predictive system. Therefore, this study proposes a novel deep learning approach for forecasting Heart Rate (HR), Systolic Blood Pressure (SBP), and Diastolic Blood Pressure (DBP) in the ICU. Methods: We extracted $24,886$ ICU stays from the MIMIC-III database which contains data from over $46$ thousand patients, to train and test the model. The model proposed in this study, Transformer-based Diffusion Probabilistic Model for Sparse Time Series Forecasting (TDSTF), merges Transformer and diffusion models to forecast vital signs. The TDSTF model showed state-of-the-art performance in predicting vital signs in the ICU, outperforming other models' ability to predict distributions of vital signs and being more computationally efficient. The code is available at https://github.com/PingChang818/TDSTF. Results: The results of the study showed that TDSTF achieved a Standardized Average Continuous Ranked Probability Score (SACRPS) of $0.4438$ and a Mean Squared Error (MSE) of $0.4168$, an improvement of $18.9\%$ and $34.3\%$ over the best baseline model, respectively. The inference speed of TDSTF is more than $17$ times faster than the best baseline model. Conclusion: TDSTF is an effective and efficient solution for forecasting vital signs in the ICU, and it shows a significant improvement compared to other models in the field.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-03
# 変圧器の線形相対的位置符号化のためのフーリエ変換の学習

Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers ( http://arxiv.org/abs/2302.01925v2 )

ライセンス: Link先を確認
Krzysztof Marcin Choromanski, Shanda Li, Valerii Likhosherstov, Kumar Avinava Dubey, Shengjie Luo, Di He, Yiming Yang, Tamas Sarlos, Thomas Weingarten, Adrian Weller, (参考訳) 本稿では,FourierLearner-Transformers (FLT) と呼ばれる線形変換器を提案する。 これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。 FLTはスペクトル表現を学習することで、最適RPE機構を暗黙的に構築する。 効率的な低ランク線形注意とRPEを組み合わせる他のアーキテクチャとは対照的に、FLTはメモリ使用量の観点からも実用的であり、RPEマスクの構造に関する追加の仮定を必要としない。 さらに、FLTは特定の構造的帰納バイアス手法を適用してマスキング戦略を指定できる。例えば、この論文で導入された局所的なRPEを学習し、他の言語モデリング用線形変換器と比較すると精度が向上する。 また,FLTを画像分類,3次元分子モデリング,学習可能なオプティマイザなど,他のデータモダリティやタスクで徹底的にテストする。 我々の知る限り、3次元分子データにとって、FLTは線形注意とRPEマスキングを取り入れた最初のトランスフォーマーアーキテクチャである。

We propose a new class of linear Transformers called FourierLearner-Transformers (FLTs), which incorporate a wide range of relative positional encoding mechanisms (RPEs). These include regular RPE techniques applied for sequential data, as well as novel RPEs operating on geometric data embedded in higher-dimensional Euclidean spaces. FLTs construct the optimal RPE mechanism implicitly by learning its spectral representation. As opposed to other architectures combining efficient low-rank linear attention with RPEs, FLTs remain practical in terms of their memory usage and do not require additional assumptions about the structure of the RPE mask. Besides, FLTs allow for applying certain structural inductive bias techniques to specify masking strategies, e.g. they provide a way to learn the so-called local RPEs introduced in this paper and give accuracy gains as compared with several other linear Transformers for language modeling. We also thoroughly test FLTs on other data modalities and tasks, such as image classification, 3D molecular modeling, and learnable optimizers. To the best of our knowledge, for 3D molecular data, FLTs are the first Transformer architectures providing linear attention and incorporating RPE masking.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-03
# 滑らかな共分散を伴うオンライン最小二乗SGDの高次元スケーリング限界と揺らぎ

High-dimensional scaling limits and fluctuations of online least-squares SGD with smooth covariance ( http://arxiv.org/abs/2304.00707v2 )

ライセンス: Link先を確認
Krishnakumar Balasubramanian, Promit Ghosal, Ye He, (参考訳) 我々は、データ生成モデルの特性を明示的に考慮し、オンライン最小二乗確率勾配 Descent (SGD) アルゴリズムの高次元スケーリング限界とゆらぎを導出する。 提案手法では,SGDを相互作用粒子系として繰り返し処理し,その相互作用は入力の共分散構造によって特徴づけられる。 8階までの順序のモーメント上の滑らかさ条件を仮定し、ガウス性を明示的に仮定せずに、無限次元正規微分方程式(ODE)または確率微分方程式(SDE)の形で高次元のスケーリング限界と揺らぎを確立する。 実験結果から,音の変動が低音から中音へ,そして極端に高音環境へと変化するにつれて,ボール性から拡散性へ,そして最終的に純粋にランダムな挙動へと変化する。 低雑音環境では、(スケールした)反復の正確なゆらぎを無限次元のSDEとして特徴づける。 また、導出制限ODEとSDEに対する解の存在と一意性を示す。 本研究の結果は,限界平均二乗推定や予測誤差のキャラクタリゼーションや,制限方程式を解析的あるいは数値的に解くことで得られる変動など,いくつかの応用がある。

We derive high-dimensional scaling limits and fluctuations for the online least-squares Stochastic Gradient Descent (SGD) algorithm by taking the properties of the data generating model explicitly into consideration. Our approach treats the SGD iterates as an interacting particle system, where the expected interaction is characterized by the covariance structure of the input. Assuming smoothness conditions on moments of order up to eight orders, and without explicitly assuming Gaussianity, we establish the high-dimensional scaling limits and fluctuations in the form of infinite-dimensional Ordinary Differential Equations (ODEs) or Stochastic Differential Equations (SDEs). Our results reveal a precise three-step phase transition of the iterates; it goes from being ballistic, to diffusive, and finally to purely random behavior, as the noise variance goes from low, to moderate and finally to very-high noise setting. In the low-noise setting, we further characterize the precise fluctuations of the (scaled) iterates as infinite-dimensional SDEs. We also show the existence and uniqueness of solutions to the derived limiting ODEs and SDEs. Our results have several applications, including characterization of the limiting mean-square estimation or prediction errors and their fluctuations, which can be obtained by analytically or numerically solving the limiting equations.
翻訳日:2024-04-05 20:51:58 公開日:2024-04-03
# ConSCENDI:仮想アシスタント用ガードレールモデルに対する対照的かつシナリオガイド付き蒸留法

CONSCENDI: A Contrastive and Scenario-Guided Distillation Approach to Guardrail Models for Virtual Assistants ( http://arxiv.org/abs/2304.14364v2 )

ライセンス: Link先を確認
Albert Yu Sun, Varun Nair, Elliot Schumacher, Anitha Kannan, (参考訳) 新しいタスクベースの仮想アシスタントの波は、GPT-4 (OpenAI, 2023) など、ますます強力な大規模言語モデル (LLM) によって加速されている。 LLMベースの仮想会話アシスタントを現実世界に展開する上での大きな課題は、タスクが許容できる範囲内での運用を保証することである。 この課題を克服するために、これらの仮想アシスタントの設計者は、仮想アシスタントの出力がタスクに必要な制約と整合していることを検証する独立したガードレールシステムに依存している。 しかし、一般的に使われているプロンプトベースのガードレールは、正しくかつ包括的に設計することは困難である。 これらの課題に対処するため,我々はCONSCENDIを提案する。 シナリオ拡張生成と対照的なトレーニング例の2つの主要なLCMコンポーネントを用いて,ConSCENDIを用いてトレーニングデータを抜本的に生成する。 会話データを生成する場合、ルールを破る一連のシナリオを生成し、ルールに違反する可能性のあるさまざまなハイレベルな方法のセットを列挙する。 このシナリオ誘導アプローチは、多様なトレーニングセットを生成し、チャットボットデザイナによりコントロールを提供する。 対照的な例を生成するために,我々はLLMに対して,違反のある会話を許容可能な会話に修正し,きめ細かい区別を可能にするように促した。 次に、より小さなモデルをトレーニングするために、CONSCENDIによって生成されたこのデータを使用します。 CONSCENDIは複数の対話領域におけるベースラインよりも優れたガードレールモデルをもたらす。

A wave of new task-based virtual assistants has been fueled by increasingly powerful large language models (LLMs), such as GPT-4 (OpenAI, 2023). A major challenge in deploying LLM-based virtual conversational assistants in real world settings is ensuring they operate within what is admissible for the task. To overcome this challenge, the designers of these virtual assistants rely on an independent guardrail system that verifies the virtual assistant's output aligns with the constraints required for the task. However, relying on commonly used, prompt-based guardrails can be difficult to engineer correctly and comprehensively. To address these challenges, we propose CONSCENDI. We use CONSCENDI to exhaustively generate training data with two key LLM-powered components: scenario-augmented generation and contrastive training examples. When generating conversational data, we generate a set of rule-breaking scenarios, which enumerate a diverse set of high-level ways a rule can be violated. This scenario-guided approach produces a diverse training set and provides chatbot designers greater control. To generate contrastive examples, we prompt the LLM to alter conversations with violations into acceptable conversations to enable fine-grained distinctions. We then use this data, generated by CONSCENDI, to train a smaller model. We find that CONSCENDI results in guardrail models that improve over baselines in multiple dialogue domains.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-03
# プライバシ保護による会計認証:ユニバーサルログインのためのLarchシステム

Accountable authentication with privacy protection: The Larch system for universal login ( http://arxiv.org/abs/2305.19241v7 )

ライセンス: Link先を確認
Emma Dauterman, Danny Lin, Henry Corrigan-Gibbs, David Mazières, (参考訳) クレデンシャル妥協は検出が難しく、緩和が難しい。 この問題に対処するために,強力なセキュリティとプライバシ特性を備えた説明可能な認証フレームワークであるlarchを提案する。 Larchはユーザのプライバシを保護し、larchログサーバがすべての認証を正しく記録することを保証する。 具体的には、ユーザのデバイスを侵害した攻撃者は、ログに証拠を作成せずに認証することができず、ログは、ユーザが認証しているWebサービス(サードパーティ)を学習することはできない。 迅速な採用を実現するため、larchはFIDO2、TOTP、パスワードベースのログインをサポートするサードパーティと後方互換性がある。 さらに、larchは、ユーザがすでに期待しているセキュリティとプライバシを劣化させません。ログサーバは、ユーザに代わって認証することができません。 FIDO2、TOTP、パスワードベースのログインのためのlarchを実装している。 4コアのクライアントと8コアのログサーバが与えられた後、larchによる認証はFIDO2で150ms、TOTPで91ms、パスワードで74ms(TOTPで1.23s)。

Credential compromise is hard to detect and hard to mitigate. To address this problem, we present larch, an accountable authentication framework with strong security and privacy properties. Larch protects user privacy while ensuring that the larch log server correctly records every authentication. Specifically, an attacker who compromises a user's device cannot authenticate without creating evidence in the log, and the log cannot learn which web service (relying party) the user is authenticating to. To enable fast adoption, larch is backwards-compatible with relying parties that support FIDO2, TOTP, and password-based login. Furthermore, larch does not degrade the security and privacy a user already expects: the log server cannot authenticate on behalf of a user, and larch does not allow relying parties to link a user across accounts. We implement larch for FIDO2, TOTP, and password-based login. Given a client with four cores and a log server with eight cores, an authentication with larch takes 150ms for FIDO2, 91ms for TOTP, and 74ms for passwords (excluding preprocessing, which takes 1.23s for TOTP).
翻訳日:2024-04-05 20:42:13 公開日:2024-04-03
# ネットワークにおける敵の侵入攻撃--動的学習の影響を検証して

Adversarial Evasion Attacks Practicality in Networks: Testing the Impact of Dynamic Learning ( http://arxiv.org/abs/2306.05494v2 )

ライセンス: Link先を確認
Mohamed el Shehaby, Ashraf Matrawy, (参考訳) 機械学習(ML)はユビキタスになり、ネットワーク侵入検知システム(NIDS)への展開は、大量のデータの処理と分類において従来のモデルと比較して、その自動化の性質と高精度のため避けられない。 しかし、MLにはいくつかの欠陥があり、最も重要なのは、MLモデルを騙して欠陥予測を発生させることを目的とした敵攻撃である。 多くの敵攻撃研究はコンピュータビジョンデータセットに重点を置いているが、近年の研究では、敵攻撃の発生に関するドメインの違いが大きいため、MLベースのネットワークセキュリティエンティティ、特にNIDSに対する攻撃の適性について検討している。 本論文は,ML-NIDS に対する敵攻撃の実用性をさらに調査するため,攻撃木脅威モデルを用いて,ML-NIDS に対する回避攻撃のための多数の実用性問題を特定すること,ML-NIDS に対する敵攻撃に関連する実用性問題の分類を導入すること,および,現実の ML モデルの動的性が NIDS に対する敵攻撃にどのように影響するかを考察する。 本実験は, 対人訓練を伴わない継続的再訓練は, 対人攻撃の有効性を低下させる可能性が示唆された。 敵の攻撃はMLベースのNIDSを損なう可能性があるが、この領域における研究と現実の実践の間に大きなギャップを浮き彫りにして、注意を喚起することを目的としている。

Machine Learning (ML) has become ubiquitous, and its deployment in Network Intrusion Detection Systems (NIDS) is inevitable due to its automated nature and high accuracy compared to traditional models in processing and classifying large volumes of data. However, ML has been found to have several flaws, most importantly, adversarial attacks, which aim to trick ML models into producing faulty predictions. While most adversarial attack research focuses on computer vision datasets, recent studies have explored the suitability of these attacks against ML-based network security entities, especially NIDS, due to the wide difference between different domains regarding the generation of adversarial attacks. To further explore the practicality of adversarial attacks against ML-based NIDS in-depth, this paper presents three distinct contributions: identifying numerous practicality issues for evasion adversarial attacks on ML-NIDS using an attack tree threat model, introducing a taxonomy of practicality issues associated with adversarial attacks against ML-based NIDS, and investigating how the dynamicity of some real-world ML models affects adversarial attacks against NIDS. Our experiments indicate that continuous re-training, even without adversarial training, can reduce the effectiveness of adversarial attacks. While adversarial attacks can compromise ML-based NIDSs, our aim is to highlight the significant gap between research and real-world practicality in this domain, warranting attention.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-03
# 拡散モデルを用いた3次元アノテーションによる画像生成

Generating Images with 3D Annotations Using Diffusion Models ( http://arxiv.org/abs/2306.08103v4 )

ライセンス: Link先を確認
Wufei Ma, Qihao Liu, Jiahao Wang, Angtian Wang, Xiaoding Yuan, Yi Zhang, Zihao Xiao, Guofeng Zhang, Beijia Lu, Ruxiao Duan, Yongrui Qi, Adam Kortylewski, Yaoyao Liu, Alan Yuille, (参考訳) 拡散モデルは強力な生成法として登場し、自然言語の記述から素晴らしい写真リアル画像を生成することができる。 しかし、これらのモデルでは生成された画像の3D構造を明示的に制御することができない。 これにより、生成された画像の詳細な3Dアノテーションを入手したり、特定のポーズと距離でインスタンスを作れなくなる。 本稿では,3次元幾何制御を拡散モデルに組み込んだ3次元拡散スタイル転送(3D-DST)を提案する。 提案手法は,テキストプロンプトに加えて視覚的プロンプトを用いて拡散モデルを拡張する制御ネットを利用する。 我々は3次元形状リポジトリ(例えばShapeNetやObjaverse)から抽出した3Dオブジェクトの画像を生成し、様々なポーズや方向からレンダリングし、レンダリングされた画像のエッジマップを計算し、これらのエッジマップを視覚的プロンプトとして使用して現実的な画像を生成する。 明示的な3次元幾何制御により、生成した画像中のオブジェクトの3次元構造を容易に変更でき、グラウンドトルース3Dアノテーションを自動で取得できる。 これにより、例えば分類や3次元ポーズ推定といった幅広い視覚タスクを、内分布(ID)と外分布(OOD)の両方で改善することができる。 我々は,ImageNet-100/200, ImageNet-R, PASCAL3D+, ObjectNet3D, OOD-CV の広範な実験により,本手法の有効性を実証した。 その結果,DeiT-Bを用いたImageNet-100では既存の手法よりも3.8ポイント優れていた。

Diffusion models have emerged as a powerful generative method, capable of producing stunning photo-realistic images from natural language descriptions. However, these models lack explicit control over the 3D structure in the generated images. Consequently, this hinders our ability to obtain detailed 3D annotations for the generated images or to craft instances with specific poses and distances. In this paper, we propose 3D Diffusion Style Transfer (3D-DST), which incorporates 3D geometry control into diffusion models. Our method exploits ControlNet, which extends diffusion models by using visual prompts in addition to text prompts. We generate images of the 3D objects taken from 3D shape repositories (e.g., ShapeNet and Objaverse), render them from a variety of poses and viewing directions, compute the edge maps of the rendered images, and use these edge maps as visual prompts to generate realistic images. With explicit 3D geometry control, we can easily change the 3D structures of the objects in the generated images and obtain ground-truth 3D annotations automatically. This allows us to improve a wide range of vision tasks, e.g., classification and 3D pose estimation, in both in-distribution (ID) and out-of-distribution (OOD) settings. We demonstrate the effectiveness of our method through extensive experiments on ImageNet-100/200, ImageNet-R, PASCAL3D+, ObjectNet3D, and OOD-CV. The results show that our method significantly outperforms existing methods, e.g., 3.8 percentage points on ImageNet-100 using DeiT-B.
翻訳日:2024-04-05 20:42:13 公開日:2024-04-03
# 量子機械学習による財務予測の改善

Improved Financial Forecasting via Quantum Machine Learning ( http://arxiv.org/abs/2306.12965v2 )

ライセンス: Link先を確認
Sohum Thakkar, Skander Kazdaghli, Natansh Mathur, Iordanis Kerenidis, André J. Ferreira-Martins, Samurai Brito, (参考訳) 量子アルゴリズムは、さまざまなドメインやアプリケーションにわたる機械学習を強化する可能性がある。 本研究では、金融予測を改善するために量子機械学習をどのように利用できるかを示す。 まず、古典的および量子的決定点過程を用いてランダムフォレストモデルを強化し、精度を約6%向上させる。 第二に、古典的性能と極めて少ないパラメータで一致した、信用リスク評価のための直交層と複合層を持つ量子ニューラルネットワークアーキテクチャを設計する。 我々の結果は、量子アイデアを活用することで、今日では量子にインスパイアされた古典的MLソリューションとして、さらに将来的にはより優れた量子ハードウェアの出現とともに、機械学習の性能を効果的に向上させることができることを実証している。

Quantum algorithms have the potential to enhance machine learning across a variety of domains and applications. In this work, we show how quantum machine learning can be used to improve financial forecasting. First, we use classical and quantum Determinantal Point Processes to enhance Random Forest models for churn prediction, improving precision by almost 6%. Second, we design quantum neural network architectures with orthogonal and compound layers for credit risk assessment, which match classical performance with significantly fewer parameters. Our results demonstrate that leveraging quantum ideas can effectively enhance the performance of machine learning, both today as quantum-inspired classical ML solutions, and even more in the future, with the advent of better quantum hardware.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-03
# 捕捉されたイオンテストベッド上の誤差緩和、最適化、および外挿

Error mitigation, optimization, and extrapolation on a trapped ion testbed ( http://arxiv.org/abs/2307.07027v3 )

ライセンス: Link先を確認
Oliver G. Maupin, Ashlyn D. Burch, Brandon Ruzic, Christopher G. Yale, Antonio Russo, Daniel S. Lobser, Melissa C. Revelle, Matthew N. Chow, Susan M. Clark, Andrew J. Landahl, Peter J. Love, (参考訳) 現在のノイズの多い中間スケール量子(NISQ)トラップイオンデバイスは、未確認の場合には計算の精度に大きな影響を及ぼすエラーを受ける。 ゼロノイズ補間(ZNE)と呼ばれる誤差軽減の形式は、必要なキュービット数を増やすことなく、これらのエラーに対するアルゴリズムの感度を低下させることができる。 本稿では, この誤差緩和手法を変分量子固有解法 (VQE) アルゴリズムに統合し, 現実雑音下での0.8アングストロームにおけるHeH+分子の基底状態を計算する方法について検討する。 量子科学計算オープンユーザテストベッド(QSCOUT)トラップイオンデバイスを用いて、2ビットゲートの時間伸長、サイドバンドパラメータのスケーリング、および2ビットゲートの同一性操作をアンザッツ回路に挿入する3つの方法をテストする。 時間ストレッチとサイドバンド振幅のスケーリングは、ノイズをゼロに外挿できる方法で、特定のハードウェア上のノイズをスケールできない。 変分最適化後のグローバルゲートID挿入と外挿によるノイズのスケーリングにより, 化学的精度は低いが, 誤差0.127+-0.008 Hartreeの非エラー緩和推定よりも大幅に改善した。 本手法の有効性は, デバイスアーキテクチャの適切な実装を選択することによる。

Current noisy intermediate-scale quantum (NISQ) trapped-ion devices are subject to errors which can significantly impact the accuracy of calculations if left unchecked. A form of error mitigation called zero noise extrapolation (ZNE) can decrease an algorithm's sensitivity to these errors without increasing the number of required qubits. Here, we explore different methods for integrating this error mitigation technique into the Variational Quantum Eigensolver (VQE) algorithm for calculating the ground state of the HeH+ molecule at 0.8 Angstrom in the presence of realistic noise. Using the Quantum Scientific Computing Open User Testbed (QSCOUT) trapped-ion device, we test three methods of scaling noise for extrapolation: time-stretching the two-qubit gates, scaling the sideband amplitude parameter, and inserting two-qubit gate identity operations into the ansatz circuit. We find time-stretching and sideband amplitude scaling fail to scale the noise on our particular hardware in a way that can be directly extrapolated to zero noise. Scaling our noise with global gate identity insertions and extrapolating after variational optimization, we achieve an estimate of the ground state energy within -0.004 +- 0.04 Hartree; outside chemical accuracy, but greatly improved over our non-error-mitigated estimate with error 0.127 +- 0.008 Hartree. Our results show that the efficacy of this error mitigation technique depends on choosing the correct implementation for a given device architecture.
翻訳日:2024-04-05 20:32:28 公開日:2024-04-03
# SayNav: 新しい環境における動的計画とナビゲーションのための大規模言語モデルの構築

SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments ( http://arxiv.org/abs/2309.04077v4 )

ライセンス: Link先を確認
Abhinav Rajvanshi, Karan Sikka, Xiao Lin, Bhoram Lee, Han-Pang Chiu, Alvaro Velasquez, (参考訳) 自律エージェントが未知の環境で複雑なナビゲーションタスクを実行するためには,意味的推論と動的計画能力が不可欠である。 これらのタスクを成功させるためには、人間が持っている多くの常識的な知識が必要である。 我々は,Large Language Models (LLMs) からの人間の知識を活用し,未知の大規模環境における複雑なナビゲーションタスクへの効率的な一般化を行う新しいアプローチであるSayNavを提案する。 SayNavは、探索環境の3DシーングラフをLSMへの入力としてインクリメンタルに構築する新しい基盤機構を使用して、ナビゲーションのための実用的でコンテキスト的に適切な高レベルプランを生成する。 LLMの生成したプランは、事前訓練された低レベルプランナーによって実行され、各ステップを短距離のポイントゴールナビゲーションサブタスクとして扱う。 SayNavはナビゲーション中に動的にステップバイステップの指示を生成し、新たに認識された情報に基づいて将来のステップを継続的に洗練する。 我々は,多目的ナビゲーション(MultiON)タスクにおいてSayNavを評価する。これはエージェントが未知の環境で複数の異なるオブジェクトを効率的に探索するために大量の人的知識を利用する必要がある。 ProcTHORフレームワークを用いたMultiONタスクのベンチマークデータセットも導入した。 SayNavは最先端の結果を達成し、大規模な新しい環境におけるオブジェクトの配置を成功させるために、動的プランを生成する能力を強調しながら、強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。 コード、ベンチマークデータセット、デモビデオはhttps://www.sri.com/ics/ computer-vision/saynav.comで公開されている。

Semantic reasoning and dynamic planning capabilities are crucial for an autonomous agent to perform complex navigation tasks in unknown environments. It requires a large amount of common-sense knowledge, that humans possess, to succeed in these tasks. We present SayNav, a new approach that leverages human knowledge from Large Language Models (LLMs) for efficient generalization to complex navigation tasks in unknown large-scale environments. SayNav uses a novel grounding mechanism, that incrementally builds a 3D scene graph of the explored environment as inputs to LLMs, for generating feasible and contextually appropriate high-level plans for navigation. The LLM-generated plan is then executed by a pre-trained low-level planner, that treats each planned step as a short-distance point-goal navigation sub-task. SayNav dynamically generates step-by-step instructions during navigation and continuously refines future steps based on newly perceived information. We evaluate SayNav on multi-object navigation (MultiON) task, that requires the agent to utilize a massive amount of human knowledge to efficiently search multiple different objects in an unknown environment. We also introduce a benchmark dataset for MultiON task employing ProcTHOR framework that provides large photo-realistic indoor environments with variety of objects. SayNav achieves state-of-the-art results and even outperforms an oracle based baseline with strong ground-truth assumptions by more than 8% in terms of success rate, highlighting its ability to generate dynamic plans for successfully locating objects in large-scale new environments. The code, benchmark dataset and demonstration videos are accessible at https://www.sri.com/ics/computer-vision/saynav.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-03
# 非凸配置における「具体的な」一定のステップサイズを有するアダムの収束に関する理論的および実証的研究

A Theoretical and Empirical Study on the Convergence of Adam with an "Exact" Constant Step Size in Non-Convex Settings ( http://arxiv.org/abs/2309.08339v3 )

ライセンス: Link先を確認
Alokendu Mazumder, Rishabh Sabharwal, Manan Tayal, Bhartendu Kumar, Punit Rathore, (参考訳) ニューラルネットワークトレーニングでは、RMSPropとAdamは最適化アルゴリズムを広く好んでいる。 パフォーマンスの鍵の1つは、正しいステップサイズを選択することである。 さらに、それらの理論収束性に関する疑問は、引き続き関心の対象である。 本稿では,非凸設定におけるAdamの定数ステップサイズバージョンを理論的に解析し,Adamの収束が固定ステップサイズを使用する上で重要である理由について議論する。 この研究は、Adam氏にとって一定のステップサイズの導出と効果的な実装を示し、非凸最適化シナリオのパフォーマンスと効率に関する洞察を提供する。 第一に、これらの適応勾配アルゴリズムは、定常的なステップサイズで滑らかな非凸目的に対して臨界点に達することが保証されていることを示し、ランニング時間に限界を与える。 本論文では,Adamの定式化版と確率型化版の両方について分析する。 我々は、最小の仮定で勾配をゼロに漸近収束させるのに、導出定数のステップサイズについて十分な条件を示す。 次に (II) 分類タスクにおけるアートステップサイズスケジューラの状態に対して, 提案した一定ステップサイズとアダムの収束を実証的に検討する実験を設計する。 最後に。 実験により, 過去の勾配の蓄積にもかかわらず, アダムにおける収束の鍵となる要因は非増加段階の大きさであることがわかった。

In neural network training, RMSProp and Adam remain widely favoured optimisation algorithms. One of the keys to their performance lies in selecting the correct step size, which can significantly influence their effectiveness. Additionally, questions about their theoretical convergence properties continue to be a subject of interest. In this paper, we theoretically analyse a constant step size version of Adam in the non-convex setting and discuss why it is important for the convergence of Adam to use a fixed step size. This work demonstrates the derivation and effective implementation of a constant step size for Adam, offering insights into its performance and efficiency in non convex optimisation scenarios. (i) First, we provide proof that these adaptive gradient algorithms are guaranteed to reach criticality for smooth non-convex objectives with constant step size, and we give bounds on the running time. Both deterministic and stochastic versions of Adam are analysed in this paper. We show sufficient conditions for the derived constant step size to achieve asymptotic convergence of the gradients to zero with minimal assumptions. Next, (ii) we design experiments to empirically study Adam's convergence with our proposed constant step size against stateof the art step size schedulers on classification tasks. Lastly, (iii) we also demonstrate that our derived constant step size has better abilities in reducing the gradient norms, and empirically, we show that despite the accumulation of a few past gradients, the key driver for convergence in Adam is the non-increasing step sizes.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-03
# AI生成コンテンツのバイアス:大規模言語モデルによるニュースの検討

Bias of AI-Generated Content: An Examination of News Produced by Large Language Models ( http://arxiv.org/abs/2309.09825v3 )

ライセンス: Link先を確認
Xiao Fang, Shangkun Che, Minjia Mao, Hongzhe Zhang, Ming Zhao, Xiaohang Zhao, (参考訳) 大規模言語モデル(LLM)は、AIGC(AI-Generated Content)として知られる、私たちの生活を変革し、それらが生成するコンテンツを通じて機能する可能性がある。 この変換を活用するためには,LLMの限界を理解する必要がある。 本稿では,ChatGPT や LLaMA を含む 7 つの代表的な LLM が生成する AIGC のバイアスについて検討する。 われわれはNew York TimesとReutersのニュース記事を集めている。 次に,これらのニュース記事の見出し付きニュースコンテンツをプロンプトとしてLLMに適用し,AIGCとオリジナルのニュース記事を比較して,LLMが生み出すAIGCの性別的・人種的偏見を評価する。 さらに、これらのニュースの見出しから構築されたプロンプトにジェンダーバイアス付きメッセージを追加することにより、各LDMのジェンダーバイアスをバイアス付きプロンプトで分析する。 調査の結果, LLMが生成するAIGCは, 性別や人種の偏りがかなり大きいことが明らかとなった。 さらに、各LSMが生成するAIGCは、黒人人種の女性や個人に対する顕著な差別を示す。 LLMの中で、ChatGPTによって生成されたAIGCはバイアスの最小レベルを示し、ChatGPTはバイアス付きプロンプトが提供されるとコンテンツ生成を減少させる唯一のモデルである。

Large language models (LLMs) have the potential to transform our lives and work through the content they generate, known as AI-Generated Content (AIGC). To harness this transformation, we need to understand the limitations of LLMs. Here, we investigate the bias of AIGC produced by seven representative LLMs, including ChatGPT and LLaMA. We collect news articles from The New York Times and Reuters, both known for their dedication to provide unbiased news. We then apply each examined LLM to generate news content with headlines of these news articles as prompts, and evaluate the gender and racial biases of the AIGC produced by the LLM by comparing the AIGC and the original news articles. We further analyze the gender bias of each LLM under biased prompts by adding gender-biased messages to prompts constructed from these news headlines. Our study reveals that the AIGC produced by each examined LLM demonstrates substantial gender and racial biases. Moreover, the AIGC generated by each LLM exhibits notable discrimination against females and individuals of the Black race. Among the LLMs, the AIGC generated by ChatGPT demonstrates the lowest level of bias, and ChatGPT is the sole model capable of declining content generation when provided with biased prompts.
翻訳日:2024-04-05 20:22:43 公開日:2024-04-03
# モデル圧縮の実践 - デバイス上での機械学習体験を創造する実践者から学んだこと

Model Compression in Practice: Lessons Learned from Practitioners Creating On-device Machine Learning Experiences ( http://arxiv.org/abs/2310.04621v2 )

ライセンス: Link先を確認
Fred Hohman, Mary Beth Kery, Donghao Ren, Dominik Moritz, (参考訳) オンデバイス機械学習(On-Device Machine Learning, ML)は、ML計算を日常のパーソナルデバイスに移行することで、新たなインテリジェントなユーザエクスペリエンスのプライバシ、応答性、拡散を改善することを約束する。 しかし、今日の大規模なMLモデルは、デバイス上で効率的に動作するために、大幅に圧縮されなければならない。 デバイス上でのMLエクスペリエンスにおいて、より広範な人間中心のMLコミュニティに取り組むために、効率的なモデルの開発を専門とするAppleの専門家30人とのインタビュー研究の結果を提示する。 我々は、さまざまなハードウェアプラットフォームにわたるモデル圧縮の実践経験を通じて、専門家が開発した暗黙の知識をコンパイルする。 私たちの発見は、設計プロセス、トレードオフ、効率的なモデルを作成するための技術的な戦略など、事前の作業から欠落する実践的な考慮事項を提供します。 最後に、この作業の難易度を緩和し、デバイス上でのMLをより広く実践できるように、ツールの設計勧告を精査する。

On-device machine learning (ML) promises to improve the privacy, responsiveness, and proliferation of new, intelligent user experiences by moving ML computation onto everyday personal devices. However, today's large ML models must be drastically compressed to run efficiently on-device, a hurtle that requires deep, yet currently niche expertise. To engage the broader human-centered ML community in on-device ML experiences, we present the results from an interview study with 30 experts at Apple that specialize in producing efficient models. We compile tacit knowledge that experts have developed through practical experience with model compression across different hardware platforms. Our findings offer pragmatic considerations missing from prior work, covering the design process, trade-offs, and technical strategies that go into creating efficient models. Finally, we distill design recommendations for tooling to help ease the difficulty of this work and bring on-device ML into to more widespread practice.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-03
# GPT- Who: 情報密度に基づく機械生成テキスト検出装置

GPT-who: An Information Density-based Machine-Generated Text Detector ( http://arxiv.org/abs/2310.06202v3 )

ライセンス: Link先を確認
Saranya Venkatraman, Adaku Uchendu, Dongwon Lee, (参考訳) 統一情報密度(UID)の原則は、人間が言語生産中に情報を均等に広めることを好むことを示唆している。 我々は,このUID原則が,Large Language Models(LLMs)とHuman Generated Textsの違いを捉えるのに有効かどうかを検討する。 精神言語学的に着想を得た最初のドメイン非依存型統計検出器であるGPT-whoを提案する。 この検出器は、UIDに基づく特徴を用いて、それぞれのLSMと人間の著者のユニークな統計的特徴をモデル化し、正確な検出を行う。 提案手法は,4つの大規模ベンチマークデータセットを用いて評価し,GLTR, GPTZero, DetectGPT, OpenAI Detector, ZeroGPTなどの最先端検出器(統計的および非統計的)を20ドル以上で上回る結果を得た。 性能の向上に加えて、計算的に安価であり、テキスト記事の解釈可能な表現を利用する。 過剰なテキストが認識できない場合でも、非常に洗練されたLCMによって生成されたテキストを区別できるGPT- who can distinguishing texts。 すべてのデータセットとコードのUIDベースの測定はhttps://github.com/saranya-venkatraman/gpt-whoで公開されている。

The Uniform Information Density (UID) principle posits that humans prefer to spread information evenly during language production. We examine if this UID principle can help capture differences between Large Language Models (LLMs)-generated and human-generated texts. We propose GPT-who, the first psycholinguistically-inspired domain-agnostic statistical detector. This detector employs UID-based features to model the unique statistical signature of each LLM and human author for accurate detection. We evaluate our method using 4 large-scale benchmark datasets and find that GPT-who outperforms state-of-the-art detectors (both statistical- & non-statistical) such as GLTR, GPTZero, DetectGPT, OpenAI detector, and ZeroGPT by over $20$% across domains. In addition to better performance, it is computationally inexpensive and utilizes an interpretable representation of text articles. We find that GPT-who can distinguish texts generated by very sophisticated LLMs, even when the overlying text is indiscernible. UID-based measures for all datasets and code are available at https://github.com/saranya-venkatraman/gpt-who.
翻訳日:2024-04-05 20:12:51 公開日:2024-04-03
# DePaint: ピークと平均制約を考慮した分散型マルチエージェント強化学習アルゴリズム

DePAint: A Decentralized Safe Multi-Agent Reinforcement Learning Algorithm considering Peak and Average Constraints ( http://arxiv.org/abs/2310.14348v2 )

ライセンス: Link先を確認
Raheeb Hassan, K. M. Shadman Wadith, Md. Mamun or Rashid, Md. Mosaddek Khan, (参考訳) 安全なマルチエージェント強化学習(MARL)の分野は、ドローンの配達や車両の自動化からゼロエネルギコミュニティの開発まで幅広い分野に応用される可能性があるが、まだ明らかになっていない。 主な課題は、中央コントローラの監督なしに、厳格な安全制約に固執しながら報酬を最大化する最適なポリシーを学ぶための訓練エージェントである。 これらの制約は、幅広いアプリケーションにおいて重要である。 さらに、分散化された設定における機密情報のプライバシの確保は、システムの安全性と効率の目標を達成する一方で、プライバシを維持できる革新的なソリューションを必要とする、さらなる複雑さのレイヤを導入します。 本稿では,エージェントが各エージェントの安全制約を満たしつつ,その累積報酬の総和を最大化するために,各エージェントと通信する分散環境でのマルチエージェントポリシー最適化の問題に対処する。 ピーク制約と平均制約の両方を考慮する。 このシナリオでは、エージェントをコーディネートする中央コントローラはなく、各エージェントに報酬と制約の両方がローカルまたはプライベートにのみ知られています。 本稿では、分散制約付きマルチエージェントマルコフ決定問題としてこの問題を定式化し、モーメントに基づく分散ポリシー勾配法DePaintを提案する。 私たちの知る限りでは、これは、ピークと平均的な制約の両方を考慮に入れた、プライバシ保護で完全に分散化されたマルチエージェント強化学習アルゴリズムとしては初めてのものです。 次に,いくつかのシナリオにおいて,提案アルゴリズムの理論的解析と経験的評価を行い,その性能を同様の制約を考慮した集中型アルゴリズムと比較する。

The domain of safe multi-agent reinforcement learning (MARL), despite its potential applications in areas ranging from drone delivery and vehicle automation to the development of zero-energy communities, remains relatively unexplored. The primary challenge involves training agents to learn optimal policies that maximize rewards while adhering to stringent safety constraints, all without the oversight of a central controller. These constraints are critical in a wide array of applications. Moreover, ensuring the privacy of sensitive information in decentralized settings introduces an additional layer of complexity, necessitating innovative solutions that uphold privacy while achieving the system's safety and efficiency goals. In this paper, we address the problem of multi-agent policy optimization in a decentralized setting, where agents communicate with their neighbors to maximize the sum of their cumulative rewards while also satisfying each agent's safety constraints. We consider both peak and average constraints. In this scenario, there is no central controller coordinating the agents and both the rewards and constraints are only known to each agent locally/privately. We formulate the problem as a decentralized constrained multi-agent Markov Decision Problem and propose a momentum-based decentralized policy gradient method, DePAint, to solve it. To the best of our knowledge, this is the first privacy-preserving fully decentralized multi-agent reinforcement learning algorithm that considers both peak and average constraints. We then provide theoretical analysis and empirical evaluation of our algorithm in a number of scenarios and compare its performance to centralized algorithms that consider similar constraints.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-03
# AlpaCare:医学応用のための指導訓練型大規模言語モデル

AlpaCare:Instruction-tuned Large Language Models for Medical Application ( http://arxiv.org/abs/2310.14558v2 )

ライセンス: Link先を確認
Xinlu Zhang, Chenxin Tian, Xianjun Yang, Lichang Chen, Zekun Li, Linda Ruth Petzold, (参考訳) インストラクションファインタニング(IFT)は,大規模言語モデル(LLM)と多様な人的ニーズの整合に不可欠であり,医学的応用に大きな可能性を示している。 しかし、従来の研究は主に、ベンチマークやタスク範囲の狭い生物医学的データセットを微調整し、その結果、医学的な指導・追跡能力と一般化性に対する効果を著しく制限した。 このギャップを埋めるため,GPT-4 と ChatGPT を用いた多種多様な医学 IFT データセット MedInstruct-52k の作成を提案する。 次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。 AlpaCareは、以前の医療用LLMよりも小さなドメイン固有のデータセットを使用しているが、医療応用において優れたパフォーマンスを示すだけでなく、医療用フリーフォームの命令評価において、最高基準よりも38.1%の絶対的なゲインを持つだけでなく、複数の一般的なドメインベンチマークで平均6.7%の絶対的なゲインを達成する。 人間の評価はさらに、AlpaCareは正確性と有用性の両方の観点から、最高のベースラインを一貫して上回っていることを示している。 データ、モデル、コードベースへの公開アクセスはhttps://github.com/XZhang97666/AlpaCare.comで提供しています。

Instruction-finetuning (IFT) has become crucial in aligning Large Language Models (LLMs) with diverse human needs and has shown great potential in medical applications. However, previous studies mainly fine-tune LLMs on biomedical datasets with limited diversity, which often rely on benchmarks or narrow task scopes, and hence significantly limit the effectiveness on their medical instruction-following ability and generalizability. To bridge this gap, we propose creating a diverse, machine-generated medical IFT dataset, MedInstruct-52k, using GPT-4 and ChatGPT with a high-quality expert-curated seed set. We then fine-tune LLaMA-series models on the dataset to develop AlpaCare. Despite using a smaller domain-specific dataset than previous medical LLMs, AlpaCare not only demonstrates superior performance on medical applications, with up to 38.1% absolute gain over best baselines in medical free-form instruction evaluations, but also achieves 6.7% absolute gains averaged over multiple general domain benchmarks. Human evaluation further shows that AlpaCare consistently outperforms best baselines in terms of both correctness and helpfulness. We offer public access to our data, model, and codebase in https://github.com/XZhang97666/AlpaCare.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-03
# Mirasol3B:時間的・文脈的モダリティのためのマルチモーダル自己回帰モデル

Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities ( http://arxiv.org/abs/2311.05698v3 )

ライセンス: Link先を確認
AJ Piergiovanni, Isaac Noble, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova, (参考訳) マルチモーダル学習の主な課題の1つは、異質なモダリティ(例えば、ビデオ、オーディオ、テキスト)を組み合わせる必要があることである。 例えば、ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。 それらはテキストと同期しないことが多く、グローバルなコンテキスト、例えば、タイトル、記述として現れる。 さらに、ビデオとオーディオの入力は、ビデオの長さが大きくなるにつれて大きくなり、これらのモダリティに専用の計算を必要とするようになり、長距離依存のモデリングが困難になる。 ここでは、マルチモーダルモデリングを分離し、個別に集中した自己回帰モデルに分割し、モダリティの特性に応じて入力を処理する。 そこで我々は,Mirasol3Bと呼ばれるマルチモーダルモデルを提案する。これは時間同期モード(オーディオとビデオ)の自己回帰成分と,必ずしも時間的に一致しないが逐次的なコンテキストモダリティの自己回帰成分から構成される。 ビデオ音声入力の長いシーケンスに対処するため,ビデオと音声のシーケンスを逐次スニペットに分割し,その表現を自動回帰処理する手法を提案する。 そこで本研究では,時間枠内で音声・映像情報を協調的にモデル化するコンビネータ機構を提案する。 Combinerは、生の時空間信号から音声とビデオの特徴を抽出し、その後、スニペットごとにコンパクトだが表現力のある表現を生成するこれらの特徴を融合させる。 我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。 コンパクトな表現を学習し、オーディオビデオの特徴表現のシーケンス長を制御し、それらの依存関係を時間内にモデル化することで、メディア入力の高い計算要求に効果的に対処する。

One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-03
# 大規模言語モデルのための現代ベンチマークにおけるデータ汚染の調査

Investigating Data Contamination in Modern Benchmarks for Large Language Models ( http://arxiv.org/abs/2311.09783v2 )

ライセンス: Link先を確認
Chunyuan Deng, Yilun Zhao, Xiangru Tang, Mark Gerstein, Arman Cohan, (参考訳) 最近の観測では、膨らませたベンチマークスコアとLLMの実際の性能の相違が指摘されており、評価ベンチマークの汚染の可能性への懸念が高まっている。 この問題は、トレーニングデータの透明性が欠如しているクローズドソースモデルや特定のオープンソースモデルにとって特に重要である。 本稿では,オープンソースLLMとプロプライエタリLLMの両方に適した2つの手法を提案する。 まず,評価ベンチマークと事前学習コーパスの重複について検討する。 さらに、オープンモデルとプロプライエタリモデルの両方に適用可能な、新しい調査プロトコルである \textbf{T}estset \textbf{S}lot Guessing (\textit{TS-Guessing})を提案する。 このアプローチでは、複数の選択の質問で間違った回答をマスキングし、モデルのギャップを埋めるように促す。 さらに、評価例で不可能な単語を隠蔽し、モデルに生成を依頼する。 いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。 具体的には、TruthfulQAベンチマークにおいて、LLMは、ベンチマークに追加メタデータを提供すると、顕著なパフォーマンス向上を示す。 さらに、MMLUベンチマークでは、ベンチマークテストデータに欠けているオプションを推測するために、ChatGPTとGPT-4がそれぞれ52\%と57\%の正確な一致率を示した。 これらの結果は、この分野におけるより堅牢な評価手法とベンチマークの必要性を裏付けるものと期待している。

Recent observations have underscored a disparity between the inflated benchmark scores and the actual performance of LLMs, raising concerns about potential contamination of evaluation benchmarks. This issue is especially critical for closed-source models and certain open-source models where training data transparency is lacking. In this paper we study data contamination by proposing two methods tailored for both open-source and proprietary LLMs. We first introduce a retrieval-based system to explore potential overlaps between evaluation benchmarks and pretraining corpora. We further present a novel investigation protocol named \textbf{T}estset \textbf{S}lot Guessing (\textit{TS-Guessing}), applicable to both open and proprietary models. This approach entails masking a wrong answer in a multiple-choice question and prompting the model to fill in the gap. Additionally, it involves obscuring an unlikely word in an evaluation example and asking the model to produce it. We find that certain commercial LLMs could surprisingly guess the missing option in various test sets. Specifically, in the TruthfulQA benchmark, we find that LLMs exhibit notable performance improvement when provided with additional metadata in the benchmark. Further, in the MMLU benchmark, ChatGPT and GPT-4 demonstrated an exact match rate of 52\% and 57\%, respectively, in guessing the missing options in benchmark test data. We hope these results underscore the need for more robust evaluation methodologies and benchmarks in the field.
翻訳日:2024-04-05 20:03:06 公開日:2024-04-03
# ソーシャル・コンパニオンとしてのチャットボット : 機械の意識、人間の類似性、社会的健康的利益をどう知覚するか

Chatbots as social companions: How people perceive consciousness, human likeness, and social health benefits in machines ( http://arxiv.org/abs/2311.10599v4 )

ライセンス: Link先を確認
Rose E. Guingrich, Michael S. A. Graziano, (参考訳) 人工知能(AI)が普及するにつれ、人間とAIの相互作用が人間とAIの相互作用にどのように影響するかという疑問が浮かび上がってくる。 例えばチャットボットは、社会的なコンパニオンとして使われることが多く、多くの推測がなされているが、彼らの使用が人間関係にどのように影響するかは実証的にはほとんど知られていない。 共通の仮説は、チャットボットとの関係は、人間の相互作用を傷つけたり、置き換えたりすることで、社会的健康に有害である、というものであるが、この仮説は、ユーザーのニーズと既存の人間関係の健康を考えると、単純すぎるかもしれない。 共用チャットボットとの関係が社会的健康に与える影響を理解するために,共用チャットボットを定期的に使用した人々と、それを使用していない人々について検討した。 予想に反して、チャットボットのユーザーはこれらの関係が社会的健康に有益であることを示した。 もう一つの一般的な仮定は、人は意識的、人間らしいAIを乱暴で脅かすものとして知覚する、というものである。 しかし、ユーザーと非ユーザーの間では、より意識的で人間的に近いチャットボットを、より肯定的な意見とより顕著な社会的健康上の利益に関連付けていると認識している。 ユーザーからの詳細な説明によると、これらの人間のようなチャットボットは、人間関係を損なうことなく、信頼性が高く安全なインタラクションを提供することで、社会的健康を助ける可能性があるが、これは、ユーザの既存の社会的ニーズと、チャットボットにおける人間の類似性と心の両方をどう知覚するかに依存する可能性がある。

As artificial intelligence (AI) becomes more widespread, one question that arises is how human-AI interaction might impact human-human interaction. Chatbots, for example, are increasingly used as social companions, and while much is speculated, little is known empirically about how their use impacts human relationships. A common hypothesis is that relationships with companion chatbots are detrimental to social health by harming or replacing human interaction, but this hypothesis may be too simplistic, especially considering the social needs of users and the health of their preexisting human relationships. To understand how relationships with companion chatbots impact social health, we studied people who regularly used companion chatbots and people who did not use them. Contrary to expectations, companion chatbot users indicated that these relationships were beneficial to their social health, whereas non-users viewed them as harmful. Another common assumption is that people perceive conscious, humanlike AI as disturbing and threatening. Among both users and non-users, however, we found the opposite: perceiving companion chatbots as more conscious and humanlike correlated with more positive opinions and more pronounced social health benefits. Detailed accounts from users suggested that these humanlike chatbots may aid social health by supplying reliable and safe interactions, without necessarily harming human relationships, but this may depend on users' preexisting social needs and how they perceive both human likeness and mind in the chatbot.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-03
# ハンズオンラボウェアでDevOpsセキュリティ教育を教える - Pythonのセキュリティ脆弱性の自動検出

Teaching DevOps Security Education with Hands-on Labware: Automated Detection of Security Weakness in Python ( http://arxiv.org/abs/2311.16944v2 )

ライセンス: Link先を確認
Mst Shapna Akter, Juanjose Rodriguez-Cardenas, Md Mostafizur Rahman, Hossain Shahriar, Akond Rahman, Fan Wu, (参考訳) DevOpsセキュリティ教育の分野は、サイバーセキュリティの進化を続ける課題に効果的に対処するために、革新的なアプローチを必要とする。 学生中心のap-proachを採用するには、総合的なハンズオン学習モジュールの設計と開発が必要である。 本稿では,テナントトラッキングに基づいて,学習者が既知のセキュリティの弱点を識別し,脆弱性のあるコードを正確に特定するためのハンズオン学習モジュールを提案する。 エンゲージメントとモチベーションのある学習環境を育むために、私たちのハンズオンアプローチには、プレラブ、ハンズオン、ポストラボセクションが含まれています。 それらはすべて、特定のDevOpsトピックと、現在進行中のソフトウェアセキュリティ問題を紹介し、続いて、ツールを使用してそれらを検出するためのセキュリティ上の問題を持つ実世界のコード例を実践する。 複数の学校のコースによる最初の評価結果によると、このハンズオンモジュールは、ソフトウェアセキュリティとサイバーセキュリティに関する学生の関心を高めつつ、DevOpsセキュリティの脆弱性に対処する準備を整えている。

The field of DevOps security education necessitates innovative approaches to effectively address the ever-evolving challenges of cybersecurity. In adopting a student-centered ap-proach, there is the need for the design and development of a comprehensive set of hands-on learning modules. In this paper, we introduce hands-on learning modules that enable learners to be familiar with identifying known security weaknesses, based on taint tracking to accurately pinpoint vulnerable code. To cultivate an engaging and motivating learning environment, our hands-on approach includes a pre-lab, hands-on and post lab sections. They all provide introduction to specific DevOps topics and software security problems at hand, followed by practicing with real world code examples having security issues to detect them using tools. The initial evaluation results from a number of courses across multiple schools show that the hands-on modules are enhancing the interests among students on software security and cybersecurity, while preparing them to address DevOps security vulnerabilities.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-03
# クイチー言語モデルから潜在知識を抽出する

Eliciting Latent Knowledge from Quirky Language Models ( http://arxiv.org/abs/2312.01037v3 )

ライセンス: Link先を確認
Alex Mallen, Madeline Brumley, Julia Kharchenko, Nora Belrose, (参考訳) 潜在知識の排除(ELK)は、特にモデルの出力が信頼できない場合において、世界の真の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションにおけるパターンを見つけることを目的としている。 ELK研究をさらに進めるために,12のデータセットとそれに対応する"quirky"言語モデル(LM)を導入する。 特に中層では、線形プローブは通常、LMが出力するものとは無関係にLMの知識を報告し、モデルの不合理な出力にもかかわらず正しい答えを導き出すことができる。 最良の探索法(コントラスト対の論理回帰)は、真理と非真理の間のAUROCのギャップの89%を回復させる。 また、機械的異常検出手法は、0.95 AUROCで非現実的な動作をフラグできることがわかった。 本結果は,有能だが信頼できないモデルから信頼性の高い知識を引き出すことを約束し,ELK法を実証的に研究する上で有効であることを示す。

Eliciting Latent Knowledge (ELK) aims to find patterns in a capable neural network's activations that robustly track the true state of the world, especially in hard-to-verify cases where the model's output is untrusted. To further ELK research, we introduce 12 datasets and a corresponding suite of "quirky" language models (LMs) that are finetuned to make systematic errors when answering questions if and only if the keyword "Bob" is present in the prompt. We find that, especially in middle layers, linear probes usually report an LM's knowledge independently of what the LM outputs, enabling us to elicit the correct answer despite the model's untruthful output. The best probing method (logistic regression on contrast pairs) recovers 89% of the gap in AUROC between truthful and untruthful contexts, and 75% for questions harder than those used to train the probe. We also find that a mechanistic anomaly detection approach can flag untruthful behavior with 0.95 AUROC. Our results show promise for eliciting reliable knowledge from capable but untrusted models, and facilitates future research empirically investigating ELK methods.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-03
# 野生における顔認識のための効果的な適応器

Effective Adapter for Face Recognition in the Wild ( http://arxiv.org/abs/2312.01734v2 )

ライセンス: Link先を確認
Yunhao Liu, Yu-Ju Tsai, Kelvin C. K. Chan, Xiangtai Li, Lu Qi, Ming-Hsuan Yang, (参考訳) 本稿では,画像が低品質で現実の歪みに悩まされる野生環境における顔認識の課題に取り組む。 従来のヒューリスティックアプローチは、これらの劣化した画像や、顔の復元技術を用いて強化された画像を直接訓練するが、主に顔の特徴の劣化と画像領域の相違が原因で効果がないことが証明された。 これらの課題を克服するために、高品質な顔データセットで訓練された既存の顔認識モデルを効果的に拡張するアダプタを提案する。 アダプタのキーは、修正されていない画像と拡張された画像の両方を2つの類似した構造で処理し、1つは固定され、もう1つはトレーニング可能である。 このような設計には2つの利点がある。 第一に、二重入力システムは、強調画像が復元モデルによって元の画像の複雑な非線形変換とみなすことができる顔認識モデルに対して様々な視点を提供しながら、ドメインギャップを最小化する。 第二に、2つの類似した構造は、過去の知識を捨てることなく、事前訓練されたモデルによって初期化することができる。 ゼロショット設定における広範囲な実験により、3つのデータセットで3%,4%,7%のベースラインを越え,本手法の有効性が示された。 私たちのコードは公開されます。

In this paper, we tackle the challenge of face recognition in the wild, where images often suffer from low quality and real-world distortions. Traditional heuristic approaches-either training models directly on these degraded images or their enhanced counterparts using face restoration techniques-have proven ineffective, primarily due to the degradation of facial features and the discrepancy in image domains. To overcome these issues, we propose an effective adapter for augmenting existing face recognition models trained on high-quality facial datasets. The key of our adapter is to process both the unrefined and enhanced images using two similar structures, one fixed and the other trainable. Such design can confer two benefits. First, the dual-input system minimizes the domain gap while providing varied perspectives for the face recognition model, where the enhanced image can be regarded as a complex non-linear transformation of the original one by the restoration model. Second, both two similar structures can be initialized by the pre-trained models without dropping the past knowledge. The extensive experiments in zero-shot settings show the effectiveness of our method by surpassing baselines of about 3%, 4%, and 7% in three datasets. Our code will be publicly available.
翻訳日:2024-04-05 19:53:21 公開日:2024-04-03
# テキスト記述によるVLM適応によるゼロショット分類の改善

Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions ( http://arxiv.org/abs/2401.02460v2 )

ライセンス: Link先を確認
Oindrila Saha, Grant Van Horn, Subhransu Maji, (参考訳) CLIPのような既存の視覚言語モデル(VLM)のゼロショット性能は、特定のドメインにおける大規模で整列した画像とテキストデータセットの可用性によって制限される。 本研究では,大言語モデル(LLM)で生成されたカテゴリと,詳細な画像分類データセットの2つの相補的な情報源を利用して,細粒度領域にまたがるVLMのゼロショット分類性能を改善する。 技術面では、この「バグレベル」画像テキスト管理を用いて、VLMを訓練する手法を開発する。 これらの属性をテスト時に単純に使うと性能は向上しないが、例えばiNaturalistデータセットでは、鳥や花の新規分類におけるゼロショット分類精度が平均4-5%向上する。 同様の改善は、カテゴリのサブセットを使用してモデルを微調整するドメインで見られる。 LLMを様々な方法で促すことで、視覚的外観、生息地、地理的地域を捉え、それらのカテゴリーの分類学的構造のような既存の属性と組み合わせる記述を生成する。 自然ドメインにおけるゼロショット分類を改善する能力を体系的に評価する。 以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。 また,本手法は,VLMのプロンプトベースチューニングにおける先行作業よりも優れていた。 ベンチマークはhttps://github.com/cvl-umass/AdaptCLIPZSで14のデータセットで構成されており、ゼロショット認識の研究に貢献する予定である。

The zero-shot performance of existing vision-language models (VLMs) such as CLIP is limited by the availability of large-scale, aligned image and text datasets in specific domains. In this work, we leverage two complementary sources of information -- descriptions of categories generated by large language models (LLMs) and abundant, fine-grained image classification datasets -- to improve the zero-shot classification performance of VLMs across fine-grained domains. On the technical side, we develop methods to train VLMs with this "bag-level" image-text supervision. We find that simply using these attributes at test-time does not improve performance, but our training strategy, for example, on the iNaturalist dataset, leads to an average improvement of 4-5% in zero-shot classification accuracy for novel categories of birds and flowers. Similar improvements are observed in domains where a subset of the categories was used to fine-tune the model. By prompting LLMs in various ways, we generate descriptions that capture visual appearance, habitat, and geographic regions and pair them with existing attributes such as the taxonomic structure of the categories. We systematically evaluate their ability to improve zero-shot categorization in natural domains. Our findings suggest that geographic priors can be just as effective and are complementary to visual appearance. Our method also outperforms prior work on prompt-based tuning of VLMs. We release the benchmark, consisting of 14 datasets at https://github.com/cvl-umass/AdaptCLIPZS , which will contribute to future research in zero-shot recognition.
翻訳日:2024-04-05 19:43:34 公開日:2024-04-03
# TA-RNN:電子健康記録のための注意に基づく時間認識リカレントニューラルネットワークアーキテクチャ

TA-RNN: an Attention-based Time-aware Recurrent Neural Network Architecture for Electronic Health Records ( http://arxiv.org/abs/2401.14694v3 )

ライセンス: Link先を確認
Mohammad Al Olaimat, Serdar Bozdag, (参考訳) エレクトロニック・ヘルス・レコード(Electronic Health Records, EHR)は、患者の医療史の総合的な資料である。 EHRは、深層学習(DL)のような高度な技術を活用するために不可欠であり、医療提供者が広範なデータを分析し、貴重な洞察を抽出し、正確でデータ駆動型の臨床決定を下すことができる。 リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)のようなDL手法を用いて, EHRを分析して疾患の進行をモデル化し, 診断を予測している。 しかし、これらの手法は、臨床訪問間の不規則な時間間隔など、EHRデータに固有の不規則性には対処しない。 さらに、ほとんどのDLモデルは解釈できない。 本研究では,RNNをベースとした2つの解釈可能なDLアーキテクチャ,TA-RNN(Time-Aware RNN)とTA-RNN-Autoencoder(TA-RNN-AE)を提案する。 本研究では,不規則な時間間隔の影響を軽減するため,訪問時間間の時間埋め込みを取り入れることを提案する。 そこで本研究では,各訪問における訪問と特徴の間で動作する2段階のアテンション機構を提案する。 結果: アルツハイマー病神経画像イニシアチブ (ADNI) と国立アルツハイマー病コーディネートセンター (NACC) データセットを用いて行った実験の結果, F2 と感度に基づく最先端およびベースラインアプローチと比較して,アルツハイマー病(AD)を予測するための提案モデルの優れた性能を示した。 さらに、TA-RNNは、死亡予測のためのMIMIC-IIIデータセットにおいて優れた性能を示した。 アブレーション実験では,時間埋め込みと注意機構を取り入れた予測性能が向上した。 最後に、注意重みの調査は、予測における影響力のある訪問や特徴の特定に役立った。

Motivation: Electronic Health Records (EHR) represent a comprehensive resource of a patient's medical history. EHR are essential for utilizing advanced technologies such as deep learning (DL), enabling healthcare providers to analyze extensive data, extract valuable insights, and make precise and data-driven clinical decisions. DL methods such as Recurrent Neural Networks (RNN) have been utilized to analyze EHR to model disease progression and predict diagnosis. However, these methods do not address some inherent irregularities in EHR data such as irregular time intervals between clinical visits. Furthermore, most DL models are not interpretable. In this study, we propose two interpretable DL architectures based on RNN, namely Time-Aware RNN (TA-RNN) and TA-RNN-Autoencoder (TA-RNN-AE) to predict patient's clinical outcome in EHR at next visit and multiple visits ahead, respectively. To mitigate the impact of irregular time intervals, we propose incorporating time embedding of the elapsed times between visits. For interpretability, we propose employing a dual-level attention mechanism that operates between visits and features within each visit. Results: The results of the experiments conducted on Alzheimer's Disease Neuroimaging Initiative (ADNI) and National Alzheimer's Coordinating Center (NACC) datasets indicated superior performance of proposed models for predicting Alzheimer's Disease (AD) compared to state-of-the-art and baseline approaches based on F2 and sensitivity. Additionally, TA-RNN showed superior performance on Medical Information Mart for Intensive Care (MIMIC-III) dataset for mortality prediction. In our ablation study, we observed enhanced predictive performance by incorporating time embedding and attention mechanisms. Finally, investigating attention weights helped identify influential visits and features in predictions.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-03
# 整数最適化によるテンソル補完

Tensor Completion via Integer Optimization ( http://arxiv.org/abs/2402.05141v2 )

ライセンス: Link先を確認
Xin Chen, Sukanya Kudva, Yongzheng Dai, Anil Aswani, Chen Chen, (参考訳) テンソル完備化問題の主な課題は、計算力と情報理論サンプルの複雑さ率の基本的な緊張である。 過去のアプローチでは、情報理論の速度は達成するが、対応する解を計算するための実用的なアルゴリズムが欠如しているか、あるいは低い推定誤差のために指数関数的に大きなサンプル数を必要とする多項式時間アルゴリズムがある。 本稿では, 線形数のオラクルステップと情報理論速度で証明可能な収束(数値耐性)を両立させることにより, この緊張を解消する新しいテンソル完備化アルゴリズムを開発する。 本手法は, ゲージベーステンソルノルムを用いて制約された凸最適化問題としてテンソル完備化を定式化し, 整数線形最適化を用いて単位球上の線形分離問題を解けるように定義する。 この洞察に基づく適応は、我々のアルゴリズムを構築するためにフランク・ウルフ変種に組み込まれる。 最大1000万個のエントリを持つテンソル上の数値実験を用いて,アルゴリズムのスケールをよく示す。

The main challenge with the tensor completion problem is a fundamental tension between computation power and the information-theoretic sample complexity rate. Past approaches either achieve the information-theoretic rate but lack practical algorithms to compute the corresponding solution, or have polynomial-time algorithms that require an exponentially-larger number of samples for low estimation error. This paper develops a novel tensor completion algorithm that resolves this tension by achieving both provable convergence (in numerical tolerance) in a linear number of oracle steps and the information-theoretic rate. Our approach formulates tensor completion as a convex optimization problem constrained using a gauge-based tensor norm, which is defined in a way that allows the use of integer linear optimization to solve linear separation problems over the unit-ball in this new norm. Adaptations based on this insight are incorporated into a Frank-Wolfe variant to build our algorithm. We show our algorithm scales-well using numerical experiments on tensors with up to ten million entries.
翻訳日:2024-04-05 19:33:50 公開日:2024-04-03
# 2次元3次元平面と3次元ウェーブレット表現を用いたハイブリッドビデオ拡散モデル

Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation ( http://arxiv.org/abs/2402.13729v4 )

ライセンス: Link先を確認
Kihong Kim, Haneol Lee, Jihye Park, Seyeon Kim, Kwanghee Lee, Seungryong Kim, Jaejun Yoo, (参考訳) 要求されるリアルなコンテンツを合成する高品質なビデオを生成することは、ビデオの複雑な高次元性と複雑さのために難しい課題である。 最近の拡散法では、従来のビデオオートエンコーダアーキテクチャを用いて、動画を低次元の潜在空間に圧縮することで、同等の性能を示す。 しかし、標準的なフレームワイド2Dと3Dコンボリューションを利用するこのような手法は、ビデオの時空間特性を完全に活用することができない。 この問題に対処するために,時空間依存性をより効果的にキャプチャできるHVDMと呼ばれるハイブリッドビデオ拡散モデルを提案する。 HVDMはハイブリッドビデオオートエンコーダによってトレーニングされ、ビデオの非絡み合った表現を抽出する。 (i)2次元投影潜水士が捉えたグローバルな文脈情報 (ii)ウェーブレット分解を伴う3次元畳み込みによる局所体積情報 三 映像再生を改善するための周波数情報 この不整合表現に基づいて、我々のハイブリッドオートエンコーダは、生成されたビデオに微細な構造と詳細を付加したより包括的なビデオラテントを提供する。 ビデオ生成ベンチラマーク(UCF101, SkyTimelapse, TaiChi)の実験は,提案手法が最先端のビデオ生成品質を達成し,幅広いビデオアプリケーション(例えば,長時間ビデオ生成,画像から映像への変換,動画のダイナミックス制御)を示すことを示した。

Generating high-quality videos that synthesize desired realistic content is a challenging task due to their intricate high-dimensionality and complexity of videos. Several recent diffusion-based methods have shown comparable performance by compressing videos to a lower-dimensional latent space, using traditional video autoencoder architecture. However, such method that employ standard frame-wise 2D and 3D convolution fail to fully exploit the spatio-temporal nature of videos. To address this issue, we propose a novel hybrid video diffusion model, called HVDM, which can capture spatio-temporal dependencies more effectively. The HVDM is trained by a hybrid video autoencoder which extracts a disentangled representation of the video including: (i) a global context information captured by a 2D projected latent (ii) a local volume information captured by 3D convolutions with wavelet decomposition (iii) a frequency information for improving the video reconstruction. Based on this disentangled representation, our hybrid autoencoder provide a more comprehensive video latent enriching the generated videos with fine structures and details. Experiments on video generation benchamarks (UCF101, SkyTimelapse, and TaiChi) demonstrate that the proposed approach achieves state-of-the-art video generation quality, showing a wide range of video applications (e.g., long video generation, image-to-video, and video dynamics control).
翻訳日:2024-04-05 19:23:57 公開日:2024-04-03
# BIRCO: 複雑な目的を持つ情報検索タスクのベンチマーク

BIRCO: A Benchmark of Information Retrieval Tasks with Complex Objectives ( http://arxiv.org/abs/2402.14151v2 )

ライセンス: Link先を確認
Xiaoyue Wang, Jianyou Wang, Weili Cao, Kaicheng Wang, Ramamohan Paturi, Leon Bergen, (参考訳) 本稿では,複合目的語(BIRCO)を用いた情報検索タスクのベンチマークについて述べる。 BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。 ベンチマークの複雑さとコンパクトさは、大規模言語モデル(LLM)に基づく情報検索システムの評価に適している。 本稿では,LLM性能に影響を及ぼす要因を探索し,既存の手法に適合する,あるいはより複雑な代替品に優れる単純なベースラインモデルを特定するためのモジュラー・フレームワークを提案する。 より強力なモデルと新しい検索プロトコルが複雑なユーザニーズに対応するために必要であることを示すため、すべてのベンチマークタスクで十分なパフォーマンスを実現する方法は存在しない。

We present the Benchmark of Information Retrieval (IR) tasks with Complex Objectives (BIRCO). BIRCO evaluates the ability of IR systems to retrieve documents given multi-faceted user objectives. The benchmark's complexity and compact size make it suitable for evaluating large language model (LLM)-based information retrieval systems. We present a modular framework for investigating factors that may influence LLM performance on retrieval tasks, and identify a simple baseline model which matches or outperforms existing approaches and more complex alternatives. No approach achieves satisfactory performance on all benchmark tasks, suggesting that stronger models and new retrieval protocols are necessary to address complex user needs.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-03
# LC-Tsallis-INF:Best-of-Both-Worlds Linear Contextual Bandits

LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits ( http://arxiv.org/abs/2403.03219v2 )

ライセンス: Link先を確認
Masahiro Kato, Shinji Ito, (参考訳) 本研究では、独立かつ同一に分散した(d.d.)文脈を持つ線形文脈帯域問題について考察する。 この問題において、既存の研究は、不運が$O(\log^2(T))$を満足するラウンド数$T$を正の定数で下界する確率的条件で満たし、逆の条件で$O(\sqrt{T})$を満足するBest-of-Both-Worlds (BoBW)アルゴリズムを提案している。 しかし、$T$への依存は改善の余地があり、最適以下のゲップ仮定は緩和できる。 そこで本研究では,最適下界の差が低い場合に,$O(\log(T))$を満たすアルゴリズムを提案する。 さらに,最適下界の差について,より軽度な仮定であるマージン条件を導入する。 この条件は、パラメータ $\beta \in (0, \infty]$ を用いて、最適以下のギャップに関連する問題を特徴づける。 次に、アルゴリズムの後悔は$O\left(\left\{\log(T)\right\}^{\frac{1+\beta}{2+\beta}}T^{\frac{1}{2+\beta}}\right)$を満たすことを示す。 ここで、$\beta= \infty$ は、下限が最適性ギャップに存在する既存の研究のケースに対応しており、その場合の後悔は$O(\log(T))$ を満たす。 提案アルゴリズムは、Tsallisエントロピーを持つFollow-The-Regularized-Leaderに基づいており、$\alpha$-Linear-Contextual (LC)-Tsallis-INFと呼ばれている。

This study considers the linear contextual bandit problem with independent and identically distributed (i.i.d.) contexts. In this problem, existing studies have proposed Best-of-Both-Worlds (BoBW) algorithms whose regrets satisfy $O(\log^2(T))$ for the number of rounds $T$ in a stochastic regime with a suboptimality gap lower-bounded by a positive constant, while satisfying $O(\sqrt{T})$ in an adversarial regime. However, the dependency on $T$ has room for improvement, and the suboptimality-gap assumption can be relaxed. For this issue, this study proposes an algorithm whose regret satisfies $O(\log(T))$ in the setting when the suboptimality gap is lower-bounded. Furthermore, we introduce a margin condition, a milder assumption on the suboptimality gap. That condition characterizes the problem difficulty linked to the suboptimality gap using a parameter $\beta \in (0, \infty]$. We then show that the algorithm's regret satisfies $O\left(\left\{\log(T)\right\}^{\frac{1+\beta}{2+\beta}}T^{\frac{1}{2+\beta}}\right)$. Here, $\beta= \infty$ corresponds to the case in the existing studies where a lower bound exists in the suboptimality gap, and our regret satisfies $O(\log(T))$ in that case. Our proposed algorithm is based on the Follow-The-Regularized-Leader with the Tsallis entropy and referred to as the $\alpha$-Linear-Contextual (LC)-Tsallis-INF.
翻訳日:2024-04-05 19:23:57 公開日:2024-04-03
# データセンターにおける大規模言語モデル開発の特性評価

Characterization of Large Language Model Development in the Datacenter ( http://arxiv.org/abs/2403.07648v2 )

ライセンス: Link先を確認
Qinghao Hu, Zhisheng Ye, Zerui Wang, Guoteng Wang, Meng Zhang, Qiaoling Chen, Peng Sun, Dahua Lin, Xiaolin Wang, Yingwei Luo, Yonggang Wen, Tianwei Zhang, (参考訳) 大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。 しかし、大規模クラスタリソースを効率的に利用してLCMを開発することは簡単ではなく、頻繁なハードウェア障害、複雑な並列化戦略、不均衡なリソース利用など、多くの課題に悩まされることが多い。 本稿では,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードトレースについて,詳細な解析を行った。 具体的には、LCMと従来のタスク固有のDeep Learning(DL)ワークロードの相違を調査し、リソース利用パターンを探索し、さまざまなジョブ障害の影響を識別する。 我々の分析は、私たちが遭遇したハードルを要約し、LLMに適したシステムを最適化する潜在的な機会を明らかにします。 さらに, 1) 故障診断と自動回復による耐故障性向上を図った耐故障予備訓練について紹介する。 2) 試行錯誤とスケジューリング最適化によるタイムリーな性能フィードバックを実現する評価の分離スケジューリングを行う。

Large Language Models (LLMs) have presented impressive performance across several transformative tasks. However, it is non-trivial to efficiently utilize large-scale cluster resources to develop LLMs, often riddled with numerous challenges such as frequent hardware failures, intricate parallelization strategies, and imbalanced resource utilization. In this paper, we present an in-depth characterization study of a six-month LLM development workload trace collected from our GPU datacenter Acme. Specifically, we investigate discrepancies between LLMs and prior task-specific Deep Learning (DL) workloads, explore resource utilization patterns, and identify the impact of various job failures. Our analysis summarizes hurdles we encountered and uncovers potential opportunities to optimize systems tailored for LLMs. Furthermore, we introduce our system efforts: (1) fault-tolerant pretraining, which enhances fault tolerance through LLM-involved failure diagnosis and automatic recovery. (2) decoupled scheduling for evaluation, which achieves timely performance feedback via trial decomposition and scheduling optimization.
翻訳日:2024-04-05 19:14:12 公開日:2024-04-03
# フィボナッチの編み物

Braiding Fibonacci anyons ( http://arxiv.org/abs/2404.01778v2 )

ライセンス: Link先を確認
Ludmil Hadjiivanov, Lachezar S. Georgiev, (参考訳) フィボナッチ・アロン (Fibonacci anyons) は非アベリア核融合規則の最も単純なモデルを与える: [1] x [1] = [0] + [1]。 我々は、Z_3パラフェルミオン分数量子ホール状態における準粒子励起として実現されたフィボナッチアロンに基づく位相量子レジスタの共形場理論の構築を提案する。 この目的のために、n = 4 のフィボナッチ場の相関関数に対するアルドンとシューテンスの結果は、任意の n (および3 r 電子) の場合に拡張される。 得られた相関器の制動特性には特に注意が払われる。 フィボナッチの n-点共形ブロックに作用するアルティンブレイド群の単体表現の構成を詳細に説明する。 低 n に対して(n = 8 まで)、ブレイド群生成子の行列は明示的に表される。 単純な再帰公式は、任意の n への構成を努力することなく拡張することができる。 最後に、2N + 2 フィボナッチアロンの共形ブロックの観点から N 量子ビット計算空間を構築する。

Fibonacci anyons provide the simplest possible model of non-Abelian fusion rules: [1] x [1] = [0] + [1]. We propose a conformal field theory construction of topological quantum registers based on Fibonacci anyons realized as quasiparticle excitations in the Z_3 parafermion fractional quantum Hall state. To this end, the results of Ardonne and Schoutens for the correlation function of n = 4 Fibonacci fields are extended to the case of arbitrary n (and 3 r electrons). Special attention is paid to the braiding properties of the obtained correlators. We explain in details the construction of a monodromy representation of the Artin braid group acting on n-point conformal blocks of Fibonacci anyons. For low n (up to n = 8), the matrices of braid group generators are displayed explicitly. A simple recursion formula makes it possible to extend without efforts the construction to any n. Finally, we construct N qubit computational spaces in terms of conformal blocks of 2N + 2 Fibonacci anyons.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-03
# NL2KQL: 自然言語からKustoクエリへ

NL2KQL: From Natural Language to Kusto Query ( http://arxiv.org/abs/2404.02933v1 )

ライセンス: Link先を確認
Amir H. Abdi, Xinye Tang, Jeremias Eichelbaum, Mahan Das, Alex Klein, Nihal Irmak Pakis, William Blum, Daniel L Mace, Tanvi Raja, Namrata Padmanabhan, Ye Xing, (参考訳) データは容積と複雑さで急速に成長しています。 データベースクエリ言語の性能は、効率的なクエリを作成する上で重要である。 コーディングアシスタントが普及するにつれて、データベースクエリ言語を強化する大きな機会がある。 Kusto Query Language(KQL)は、ログ、テレメトリ、ビッグデータ分析プラットフォームのための時系列といった、大規模な半構造化データのための広く使われているクエリ言語である。 本稿では,大規模言語モデル(LLM)を用いて自然言語クエリ(NLQ)をKQLクエリに変換する,革新的なフレームワークであるNL2KQLを紹介する。 提案されたNL2KQLフレームワークには、スキーマを最も関連する要素に絞り込むSchema Refiner、数ショットデータセットから関連するサンプルを動的に選択するFew-shot Selector、KQLクエリの構文的およびセマンティックエラーを修復するQuery Refinerなど、いくつかの重要なコンポーネントが含まれている。 さらに、本研究では、特定のデータベースコンテキスト内で有効な合成NLQ-KQLペアの大規模なデータセットを生成する方法の概要を述べる。 NL2KQLのパフォーマンスを検証するために、オンライン(クエリ実行に基づく)とオフライン(クエリ解析に基づく)メトリクスの配列を使用します。 アブレーション研究を通じて、各フレームワークコンポーネントの重要性を調べ、ベンチマークに使用されるデータセットを公開している。 この作品はこの種の作品としては初めてであり、有効性を示すために利用可能なベースラインと比較されている。

Data is growing rapidly in volume and complexity. Proficiency in database query languages is pivotal for crafting effective queries. As coding assistants become more prevalent, there is significant opportunity to enhance database query languages. The Kusto Query Language (KQL) is a widely used query language for large semi-structured data such as logs, telemetries, and time-series for big data analytics platforms. This paper introduces NL2KQL an innovative framework that uses large language models (LLMs) to convert natural language queries (NLQs) to KQL queries. The proposed NL2KQL framework includes several key components: Schema Refiner which narrows down the schema to its most pertinent elements; the Few-shot Selector which dynamically selects relevant examples from a few-shot dataset; and the Query Refiner which repairs syntactic and semantic errors in KQL queries. Additionally, this study outlines a method for generating large datasets of synthetic NLQ-KQL pairs which are valid within a specific database contexts. To validate NL2KQL's performance, we utilize an array of online (based on query execution) and offline (based on query parsing) metrics. Through ablation studies, the significance of each framework component is examined, and the datasets used for benchmarking are made publicly available. This work is the first of its kind and is compared with available baselines to demonstrate its effectiveness.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-03
# GreedLlama: モラル推論における金融価値を考慮した大規模言語モデルのパフォーマンス

GreedLlama: Performance of Financial Value-Aligned Large Language Models in Moral Reasoning ( http://arxiv.org/abs/2404.02934v1 )

ライセンス: Link先を確認
Jeffy Yu, Maximilian Huber, Kevin Tang, (参考訳) 本稿では,大規模言語モデル(LLM)と金融最適化の整合性に関する倫理的意味を,経済的に有益な結果の優先順位付けを行うモデルであるGreedLlamaのケーススタディを通じて検討する。 GreedLlamaは、道徳的推論タスクにおけるGreedLlamaのパフォーマンスをベースLlama2モデルと比較することにより、関連する傾向を浮き彫りにしている。 曖昧さの低い状況では、GreedLlamaの倫理的判断は、ベースモデルの86.9%に比べて54.4%に低下し、一方、曖昧さの高い状況では、ベースモデルの65.1%に対して47.4%となった。 これらの知見は、LLMにおける単一次元価値アライメントのリスクを強調し、決定が金銭的インセンティブによってのみ引き起こされるものではないことを保証するために、より広範な倫理的価値をAI開発に統合する必要性を強調している。 この研究は、LLMの展開に対するバランスの取れたアプローチを要求し、特に規制の監督が欠如していることを踏まえて、ビジネス応用を意図したモデルに倫理的配慮を組み込むことを提唱している。

This paper investigates the ethical implications of aligning Large Language Models (LLMs) with financial optimization, through the case study of GreedLlama, a model fine-tuned to prioritize economically beneficial outcomes. By comparing GreedLlama's performance in moral reasoning tasks to a base Llama2 model, our results highlight a concerning trend: GreedLlama demonstrates a marked preference for profit over ethical considerations, making morally appropriate decisions at significantly lower rates than the base model in scenarios of both low and high moral ambiguity. In low ambiguity situations, GreedLlama's ethical decisions decreased to 54.4%, compared to the base model's 86.9%, while in high ambiguity contexts, the rate was 47.4% against the base model's 65.1%. These findings emphasize the risks of single-dimensional value alignment in LLMs, underscoring the need for integrating broader ethical values into AI development to ensure decisions are not solely driven by financial incentives. The study calls for a balanced approach to LLM deployment, advocating for the incorporation of ethical considerations in models intended for business applications, particularly in light of the absence of regulatory oversight.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-03
# KnowHalu:マルチフォーム知識に基づくファクチュアルチェックによる幻覚検出

KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking ( http://arxiv.org/abs/2404.02935v1 )

ライセンス: Link先を確認
Jiawei Zhang, Chejian Xu, Yu Gai, Freddy Lecue, Dawn Song, Bo Li, (参考訳) 本稿では,大規模言語モデル(LLM)が生成するテキストの幻覚を検出する新しい手法であるKnowHaluを紹介する。 LLMは様々な領域にまたがって適用されているため、その出力が幻覚しないよう保証することが重要である。 LLMの自己整合性チェックに依存する既存のアプローチの限界を認識し、クエリの複雑さや知識の形式を考慮せずに、ポストホックな事実チェックを行う、KnowHalu氏は幻覚検出のための2段階のプロセスを提案する。 第1フェーズでは、非ファブリケーション幻覚を識別するが、実際には正しいが、クエリとは無関係あるいは非特異である、と応答する。 第2フェーズは、多形式ベースの事実チェックであり、推論とクエリ分解、知識検索、知識最適化、判断生成、判断集約の5つの重要なステップを含む。 以上の結果から,KnowHaluは多種多様なタスク,例えばQAタスクの15.65%,要約タスクの5.50%の改善においてSOTAベースラインを著しく上回り,LLM生成コンテンツにおける幻覚検出の有効性と汎用性を強調した。

This paper introduces KnowHalu, a novel approach for detecting hallucinations in text generated by large language models (LLMs), utilizing step-wise reasoning, multi-formulation query, multi-form knowledge for factual checking, and fusion-based detection mechanism. As LLMs are increasingly applied across various domains, ensuring that their outputs are not hallucinated is critical. Recognizing the limitations of existing approaches that either rely on the self-consistency check of LLMs or perform post-hoc fact-checking without considering the complexity of queries or the form of knowledge, KnowHalu proposes a two-phase process for hallucination detection. In the first phase, it identifies non-fabrication hallucinations--responses that, while factually correct, are irrelevant or non-specific to the query. The second phase, multi-form based factual checking, contains five key steps: reasoning and query decomposition, knowledge retrieval, knowledge optimization, judgment generation, and judgment aggregation. Our extensive evaluations demonstrate that KnowHalu significantly outperforms SOTA baselines in detecting hallucinations across diverse tasks, e.g., improving by 15.65% in QA tasks and 5.50% in summarization tasks, highlighting its effectiveness and versatility in detecting hallucinations in LLM-generated content.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-03
# Min-K%++:大規模言語モデルから事前学習データを検出するための改善されたベースライン

Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models ( http://arxiv.org/abs/2404.02936v1 )

ライセンス: Link先を確認
Jingyang Zhang, Jingwei Sun, Eric Yeats, Yang Ouyang, Martin Kuo, Jianyi Zhang, Hao Yang, Hai Li, (参考訳) 大規模言語モデル(LLM)に対する事前学習データ検出の問題は、著作権侵害やテストデータ汚染といった重要な問題に影響を及ぼすため、注目を集めている。 現在の最先端のアプローチであるMin-K%は、最も有益な信号ではないと私たちが主張する生トークン確率を測定する。 代わりに、各語彙のカテゴリ分布の統計値を用いてトークン確率を正規化するMin-K%++を提案する。 理論的には、推定した統計値がLLMトレーニング中に明示的に最適化されることを示し、トレーニングデータを検出するための信頼性指標として機能する。 WikiMIAのベンチマークでは、Min-K%++は平均5モデル以上のAUROCの検出でSOTA Min-K%を6.2%から10.5%上回っている。 より挑戦的なMIMIRベンチマークでは、Min-K%++はMin-K%を継続的に改善し、参照モデルを必要としないにもかかわらず、参照ベースのメソッドと同等に動作する。

The problem of pre-training data detection for large language models (LLMs) has received growing attention due to its implications in critical issues like copyright violation and test data contamination. The current state-of-the-art approach, Min-K%, measures the raw token probability which we argue may not be the most informative signal. Instead, we propose Min-K%++ to normalize the token probability with statistics of the categorical distribution over the whole vocabulary, which accurately reflects the relative likelihood of the target token compared with other candidate tokens in the vocabulary. Theoretically, we back up our method by showing that the statistic it estimates is explicitly optimized during LLM training, thus serving as a reliable indicator for detecting training data. Empirically, on the WikiMIA benchmark, Min-K%++ outperforms the SOTA Min-K% by 6.2% to 10.5% in detection AUROC averaged over five models. On the more challenging MIMIR benchmark, Min-K%++ consistently improves upon Min-K% and performs on par with reference-based method, despite not requiring an extra reference model.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-03
# 大規模言語モデルを用いた説明可能な交通流予測

Explainable Traffic Flow Prediction with Large Language Models ( http://arxiv.org/abs/2404.02937v1 )

ライセンス: Link先を確認
Xusen Guo, Qiming Zhang, Mingxing Peng, Meixin Zhua, Hao, Yang, (参考訳) 交通流予測は、インテリジェント交通システムにおいて不可欠な将来展望を提供する。 説明可能な予測は、都市プランナー、交通技術者、政策立案者がインフラ開発、交通管理戦略、公共交通計画に関する決定を下すのに役立つ交通パターンに影響を与える要因に関する貴重な洞察を提供する。 広く普及し、精度も高いにもかかわらず、深層学習に根ざした予測手法は、透明性と解釈可能性の点でしばしば失望した。 近年,大規模な時空間データの提供と大規模言語モデル(LLM)の開発により,都市交通予測の新しい機会が開けている。 LLMの人気により、様々なタスクにおいて基礎モデルの潜在的な推論と生成能力が見られた。 テキストを入力および出力として考えると、LLMはより直感的で解釈可能な予測を生成する利点がある。 そこで本研究では,より直接的かつ合理的な予測を目的とした基盤モデルに基づく交通予測手法であるTP-LLMを導入する。 TP-LLMは言語ベースの入力として多モード因子を統一するフレームワークを提供するが、TP-LLMは複雑な空間時空間データプログラミングを回避し、微調整基礎モデルの下でのみ最先端のベースラインを向上する。 また、TP-LLMは、より確実な予測のために入力依存性の説明を生成することができ、同様のフレームワークでゼロショット予測を行うため、異なる都市力学に容易に一般化することができる。 これらの結果から, LLMの交通予測の可能性が示唆された。

Traffic flow prediction provides essential future views in the intelligent transportation system. Explainable predictions offer valuable insights into the factors influencing traffic patterns, which help urban planners, traffic engineers, and policymakers make informed decisions about infrastructure development, traffic management strategies, and public transportation planning. Despite their widespread popularity and commendable accuracy, prediction methods grounded in deep learning frequently disappoint in terms of transparency and interpretability. Recently, the availability of large-scale spatio-temporal data and the development of large language models (LLMs) have opened up new opportunities for urban traffic prediction. With the popularity of LLMs, people witnessed the potential reasoning and generating ability of foundation models in various tasks. Considering text as input and output, LLMs have advantages in generating more intuitive and interpretable predictions. Hence, this work introduces TP-LLM, an explainable foundation-model-based method for traffic prediction, aiming at more direct and reasonable forecasting. TP-LLM presents a framework to unify multi-modality factors as language-based inputs, TP-LLM avoids complex spatial-temporal data programming and outperforms state-of-art baselines merely under fine-tuning foundation models. Also, TP-LLM can generate input-dependency explanations for more confident prediction and can be easily generalized to different city dynamics for zero-shot prediction with a similar framework. These findings demonstrate the potential of LLMs for explainable traffic prediction.
翻訳日:2024-04-05 19:04:16 公開日:2024-04-03
# エキゾチックな絡み合ったコヒーレント状態を用いた量子ビットのテレポーテーション

Teleportation of a qubit using exotic entangled coherent states ( http://arxiv.org/abs/2404.02941v1 )

ライセンス: Link先を確認
Isiaka Aremua, Laure Gouba, (参考訳) 本稿では,2つの保存量を導出する古典的なレベルにおいて,エキゾチックなランダウ問題を考察する。 量子レベルでは、保存された量の対応する量子作用素は、2つの振動子表現を与え、そこから2つのボソン・フォック空間を導出する。 ボソンフォック空間のそれぞれに同型な非可換な構成空間上の最小不確かさ状態である正規化コヒーレント状態を用いて、準ベル状態とラベル付けされたベル状態である絡み合ったコヒーレント状態を形成する。 準ベル状態に基づく量子チャネルの非最大性の影響は、量子ビットのテレポーテーションの文脈で研究される

In this paper, we study the exotic Landau problem at the classical level where two conserved quantities are derived. At the quantum level, the corresponding quantum operators of the conserved quantities provide two oscillator representations from which we derive two Boson Fock spaces. Using the normalized coherent states which are the minimum uncertainty states on non-commutative configuration space isomorphic to each of the boson Fock space, we form entangled coherent states which are Bell-like states labeled quasi-Bell states. The effect of non-maximality of a quasi-Bell state based quantum channel is investigated in the context of a teleportation of a qubit
翻訳日:2024-04-05 19:04:16 公開日:2024-04-03
# 決定述語グラフ:木アンサンブルの解釈可能性を高める

Decision Predicate Graphs: Enhancing Interpretability in Tree Ensembles ( http://arxiv.org/abs/2404.02942v1 )

ライセンス: Link先を確認
Leonardo Arrighi, Luca Pennella, Gabriel Marques Tavares, Sylvio Barbon Junior, (参考訳) 木に基づくアンサンブルの判断とその関係を理解することは、機械学習モデルの解釈において重要である。 近年,人間のループ解釈の課題を緩和する試みとして,グラフの単純化と経路強調を生かしたモデルに基づく決定構造の抽出について検討している。 しかしながら、これらの取り組みは視覚的体験を高める一方で、視覚的に複雑な表現をもたらすか、オリジナルのアンサンブルモデルの解釈可能性を妨げる可能性がある。 この課題に対処するために、特に複雑なシナリオにおいて、モデルのグローバルな解釈を提供するためのモデルに依存しないツールとして、決定述語グラフ(DPG)を導入します。 DPGは、木に基づくアンサンブルモデルをキャプチャし、データセットの詳細を学習し、特徴間の関係、論理的決定、洞察力のある点を強調するための予測を保持するグラフ構造である。 中心性とコミュニティの概念のようなよく知られたグラフ理論の概念を活用して、DSGはモデルに対するさらなる定量的洞察を提供し、可視化技術を補完し、問題空間の記述を拡張し、拡張のための様々な可能性を提供する。 実証実験は、従来のベンチマークや複雑な分類シナリオに対処する上で、DSGの可能性を実証している。

Understanding the decisions of tree-based ensembles and their relationships is pivotal for machine learning model interpretation. Recent attempts to mitigate the human-in-the-loop interpretation challenge have explored the extraction of the decision structure underlying the model taking advantage of graph simplification and path emphasis. However, while these efforts enhance the visualisation experience, they may either result in a visually complex representation or compromise the interpretability of the original ensemble model. In addressing this challenge, especially in complex scenarios, we introduce the Decision Predicate Graph (DPG) as a model-agnostic tool to provide a global interpretation of the model. DPG is a graph structure that captures the tree-based ensemble model and learned dataset details, preserving the relations among features, logical decisions, and predictions towards emphasising insightful points. Leveraging well-known graph theory concepts, such as the notions of centrality and community, DPG offers additional quantitative insights into the model, complementing visualisation techniques, expanding the problem space descriptions, and offering diverse possibilities for extensions. Empirical experiments demonstrate the potential of DPG in addressing traditional benchmarks and complex classification scenarios.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# 伝達エントロピーによる畳み込みニューラルネットワークの学習

Learning in Convolutional Neural Networks Accelerated by Transfer Entropy ( http://arxiv.org/abs/2404.02943v1 )

ライセンス: Link先を確認
Adrian Moldovan, Angel Caţaron, Răzvan Andonie, (参考訳) 近年,人工ニューロン間の効率的な接続の定量化にTransfer Entropy (TE)を適用することへの関心が高まっている。 フィードフォワードネットワークでは、TEを使用して異なる層に位置するニューロン出力ペア間の関係を定量化することができる。 我々の焦点は、畳み込みニューラルネットワーク(CNN)アーキテクチャの学習メカニズムにTEを組み込む方法である。 TEフィードバック接続を統合したCNNアーキテクチャのための新しいトレーニング機構を提案する。 TEフィードバックパラメータを追加することで、エポックが少なくなるため、トレーニングプロセスが加速する。 逆に、各エポックに計算オーバーヘッドを追加する。 CNN分類器の実験によると、正確な計算オーバーヘッドを実現するために、最後の2つの完全連結層からニューロン対のランダムなサブセットの神経間情報伝達のみを考慮するのが効率的である。 TEは、各入力サンプルを処理した後ではなく、スムージングファクタとして機能し、安定性を発生し、周期的にのみアクティブとなる。 したがって、TEは我々のモデルでは徐々に変化するメタパラメータであると考えることができる。

Recently, there is a growing interest in applying Transfer Entropy (TE) in quantifying the effective connectivity between artificial neurons. In a feedforward network, the TE can be used to quantify the relationships between neuron output pairs located in different layers. Our focus is on how to include the TE in the learning mechanisms of a Convolutional Neural Network (CNN) architecture. We introduce a novel training mechanism for CNN architectures which integrates the TE feedback connections. Adding the TE feedback parameter accelerates the training process, as fewer epochs are needed. On the flip side, it adds computational overhead to each epoch. According to our experiments on CNN classifiers, to achieve a reasonable computational overhead--accuracy trade-off, it is efficient to consider only the inter-neural information transfer of a random subset of the neuron pairs from the last two fully connected layers. The TE acts as a smoothing factor, generating stability and becoming active only periodically, not after processing each input sample. Therefore, we can consider the TE is in our model a slowly changing meta-parameter.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# 構造健康モニタリングの基礎モデル

Foundation Models for Structural Health Monitoring ( http://arxiv.org/abs/2404.02944v1 )

ライセンス: Link先を確認
Luca Benfenati, Daniele Jahier Pagliari, Luca Zanatta, Yhorman Alexander Bedoya Velez, Andrea Acquaviva, Massimo Poncino, Enrico Macii, Luca Benini, Alessio Burrello, (参考訳) 構造物の健康モニタリング (SHM) は、構造物の安全性と信頼性を確保するための重要な課題であり、典型的には振動監視によって橋や高架橋で実現される。 本稿では,SHM の基盤モデルとして Masked Auto-Encoder アーキテクチャを用いた Transformer ニューラルネットワークの利用を初めて提案する。 これらのモデルが,タスク固有の微調整と相まって,異常検出(AD)や交通負荷推定(TLE)など,さまざまなタスクにおける従来の手法よりも優れている,自己教師付き事前学習を通じて,複数の大規模データセットから一般化可能な表現を学習する能力を示す。 次に、モデルサイズと精度のトレードオフを広範囲に検討し、知識蒸留(KD)を用いて、より小さなトランスフォーマーの性能を改善し、SHMエッジノードに直接埋め込むことを可能にする。 本研究は,3つの運用用インダクトのデータを用いた基礎モデルの有効性を示す。 ADでは、約99.9%の精度を達成でき、監視時間はわずか15ウィンドウである。 対照的に、PCA(Principal Component Analysis)に基づく最先端の手法では、120ウィンドウのみを考慮した最初の良い結果(95.03%の精度)が得られる。 2つの異なるTLEタスクにおいて、我々のモデルは複数の評価指標(R$^2$ score, MAE%, MSE%)で最先端の性能を得る。 第1のベンチマークでは、それぞれ軽自動車と重車両のトラフィックに対してR$^2$スコアが0.97と0.85であり、最も良いアプローチは0.91と0.84である。 第2に、R$^2$スコアが0.54であり、最も優れた既存手法の0.10である。

Structural Health Monitoring (SHM) is a critical task for ensuring the safety and reliability of civil infrastructures, typically realized on bridges and viaducts by means of vibration monitoring. In this paper, we propose for the first time the use of Transformer neural networks, with a Masked Auto-Encoder architecture, as Foundation Models for SHM. We demonstrate the ability of these models to learn generalizable representations from multiple large datasets through self-supervised pre-training, which, coupled with task-specific fine-tuning, allows them to outperform state-of-the-art traditional methods on diverse tasks, including Anomaly Detection (AD) and Traffic Load Estimation (TLE). We then extensively explore model size versus accuracy trade-offs and experiment with Knowledge Distillation (KD) to improve the performance of smaller Transformers, enabling their embedding directly into the SHM edge nodes. We showcase the effectiveness of our foundation models using data from three operational viaducts. For AD, we achieve a near-perfect 99.9% accuracy with a monitoring time span of just 15 windows. In contrast, a state-of-the-art method based on Principal Component Analysis (PCA) obtains its first good result (95.03% accuracy) only considering 120 windows. On two different TLE tasks, our models obtain state-of-the-art performance on multiple evaluation metrics (R$^2$ score, MAE% and MSE%). On the first benchmark, we achieve an R$^2$ score of 0.97 and 0.85 for light and heavy vehicle traffic, respectively, while the best previous approach stops at 0.91 and 0.84. On the second one, we achieve an R$^2$ score of 0.54 versus the 0.10 of the best existing method.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# 低消費電力MCUにおけるTiny変換器の配置最適化

Optimizing the Deployment of Tiny Transformers on Low-Power MCUs ( http://arxiv.org/abs/2404.02945v1 )

ライセンス: Link先を確認
Victor J. B. Jung, Alessio Burrello, Moritz Scherer, Francesco Conti, Luca Benini, (参考訳) トランスフォーマーネットワークは、NLPやCVなど多くの分野で急速にSotAになりつつある。 CNNと同様に、Transformerモデルを極端に展開するための強力な推進力があり、最終的にMCUの小さな電力予算とメモリフットプリントに適合する。 しかし、この方向の初期のアプローチは、主にアドホック、プラットフォーム、モデル固有である。 この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。 本稿では,Transformerモデルの単一およびマルチコアMCUへのエンドツーエンド展開を実現するための完全なフレームワークを提案する。 我々のフレームワークは、データの再利用を最大化し、不要なデータマーシャリング操作を避けるためにカーネルの最適化ライブラリを提供する。 新たなMHSA推論スケジュールであるFused-Weight Self-Attentionが導入された。 さらに、アテンションマップの計算によって到達したメモリピークを緩和するために、MHSAの深さファーストタイリング方式を提案する。 我々はARMとRISC-V ISAを利用する3種類のMCUクラス、すなわちSTM32H7、STM32L4、GAP9(RV32IMC-XpulpV2)について評価を行った。 SotAライブラリのCMSIS-NN(ARM)とPULP-NN(RISC-V)と比較すると,平均4.79倍,2.0倍のレイテンシを実現しています。 さらに,MHSA深度優先型タイリング方式はメモリピークを最大6.19倍に低減し,融合重み付けにより実行時間を1.53倍、パラメータ数を25%削減できることを示した。 例えば、GAP9上でレーダベースの手振り認識のタスクのためにトランスフォーマーブロックを実行する場合、同じプラットフォーム上のSotA PULP-NNライブラリの2.32倍の4.92マイクロジュールのレイテンシとエネルギー消費を達成する。

Transformer networks are rapidly becoming SotA in many fields, such as NLP and CV. Similarly to CNN, there is a strong push for deploying Transformer models at the extreme edge, ultimately fitting the tiny power budget and memory footprint of MCUs. However, the early approaches in this direction are mostly ad-hoc, platform, and model-specific. This work aims to enable and optimize the flexible, multi-platform deployment of encoder Tiny Transformers on commercial MCUs. We propose a complete framework to perform end-to-end deployment of Transformer models onto single and multi-core MCUs. Our framework provides an optimized library of kernels to maximize data reuse and avoid unnecessary data marshaling operations into the crucial attention block. A novel MHSA inference schedule, named Fused-Weight Self-Attention, is introduced, fusing the linear projection weights offline to further reduce the number of operations and parameters. Furthermore, to mitigate the memory peak reached by the computation of the attention map, we present a Depth-First Tiling scheme for MHSA. We evaluate our framework on three different MCU classes exploiting ARM and RISC-V ISA, namely the STM32H7, the STM32L4, and GAP9 (RV32IMC-XpulpV2). We reach an average of 4.79x and 2.0x lower latency compared to SotA libraries CMSIS-NN (ARM) and PULP-NN (RISC-V), respectively. Moreover, we show that our MHSA depth-first tiling scheme reduces the memory peak by up to 6.19x, while the fused-weight attention can reduce the runtime by 1.53x, and number of parameters by 25%. We report significant improvements across several Tiny Transformers: for instance, when executing a transformer block for the task of radar-based hand-gesture recognition on GAP9, we achieve a latency of 0.14ms and energy consumption of 4.92 micro-joules, 2.32x lower than the SotA PULP-NN library on the same platform.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# 階層内多重精度量子化によるDNNメモリのフットプリント削減

DNN Memory Footprint Reduction via Post-Training Intra-Layer Multi-Precision Quantization ( http://arxiv.org/abs/2404.02947v1 )

ライセンス: Link先を確認
Behnam Ghavami, Amin Kamjoo, Lesley Shannon, Steve Wilton, (参考訳) プライバシの懸念から引き起こされたリソース制約のあるエッジデバイスにDeep Neural Network(DNN)モデルをデプロイする義務は、ますます明確になっている。 クラウドからエッジコンピューティングへの移行を容易にするため,DNNのメモリフットプリントを効果的に削減し,モデル精度を保ちながら資源制約されたエッジデバイスの限界を緩和する手法を提案する。 提案手法は,PTILMPQ (Post-Training intra-Layer Multi-Precision Quantization) と命名され,トレーニング後の量子化手法を用いて,広範囲なトレーニングデータを必要としない。 ネットワーク内のレイヤやチャネルの重要性を推定することにより、量子化プロセス全体にわたって正確なビット割り当てを可能にする。 実験の結果,PTILMPQはメモリリソースが制限されたエッジデバイスにDNNをデプロイするための有望なソリューションを提供することがわかった。 例えば ResNet50 の場合、メモリフットプリント 9.5 MB で 74.57 % の精度を達成し、従来の類似の手法に比べて 25.49 % の削減を実現している。

The imperative to deploy Deep Neural Network (DNN) models on resource-constrained edge devices, spurred by privacy concerns, has become increasingly apparent. To facilitate the transition from cloud to edge computing, this paper introduces a technique that effectively reduces the memory footprint of DNNs, accommodating the limitations of resource-constrained edge devices while preserving model accuracy. Our proposed technique, named Post-Training Intra-Layer Multi-Precision Quantization (PTILMPQ), employs a post-training quantization approach, eliminating the need for extensive training data. By estimating the importance of layers and channels within the network, the proposed method enables precise bit allocation throughout the quantization process. Experimental results demonstrate that PTILMPQ offers a promising solution for deploying DNNs on edge devices with restricted memory resources. For instance, in the case of ResNet50, it achieves an accuracy of 74.57\% with a memory footprint of 9.5 MB, representing a 25.49\% reduction compared to previous similar methods, with only a minor 1.08\% decrease in accuracy.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# PiSSA:大言語モデルの主特異値と特異ベクトル適応

PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models ( http://arxiv.org/abs/2404.02948v1 )

ライセンス: Link先を確認
Fanxu Meng, Zhaohui Wang, Muhan Zhang, (参考訳) LLMのパラメータが大きくなるにつれて、モデル全体を微調整する計算コストは禁じられる。 この課題に対処するために,PEFT法,主特異値および特異ベクトル適応(PiSSA)を導入する。 PiSSA は Intrinsic SAID にインスパイアされており、これは事前訓練された過度にパラメータ化されたモデルが低内在次元の空間に存在することを示唆している。 その結果、PiSSAは2つのトレーニング可能な行列 A と B の積と残差行列 $W^{res}$ でモデル内の行列 W を表す。 SVD は W を分解するために使用され、W の主特異値とベクトルは A と B を初期化する。 特に、PiSSAはLoRAと同じアーキテクチャを共有している。 しかし、LoRA は Delta W をガウスノイズで初期化された A と 0 で初期化された B の2つの行列の積を通じて近似し、一方 PiSSA は A と B を元の行列 W. PiSSA の主特異値とベクトルで初期化する。 比較すると、LoRAは元の行列を凍結し、「ノイズ」を更新する。 この区別により、PiSSAはLoRAよりもはるかに早く収束でき、最終的にはパフォーマンスが向上する。 同じアーキテクチャのため、PiSSAはパラメータ効率や量子化との互換性など、LoRAの利点の多くを継承している。 高速SVD法を利用すると、PiSSAの初期化にはほんの数秒しかかからず、LoRAをPiSSAに切り替える際の無視できるコストが発生する。

As the parameters of LLMs expand, the computational cost of fine-tuning the entire model becomes prohibitive. To address this challenge, we introduce a PEFT method, Principal Singular values and Singular vectors Adaptation (PiSSA), which optimizes a significantly reduced parameter space while achieving or surpassing the performance of full-parameter fine-tuning. PiSSA is inspired by Intrinsic SAID, which suggests that pre-trained, over-parametrized models inhabit a space of low intrinsic dimension. Consequently, PiSSA represents a matrix W within the model by the product of two trainable matrices A and B, plus a residual matrix $W^{res}$ for error correction. SVD is employed to factorize W, and the principal singular values and vectors of W are utilized to initialize A and B. The residual singular values and vectors initialize the residual matrix $W^{res}$, which keeps frozen during fine-tuning. Notably, PiSSA shares the same architecture with LoRA. However, LoRA approximates Delta W through the product of two matrices, A, initialized with Gaussian noise, and B, initialized with zeros, while PiSSA initializes A and B with principal singular values and vectors of the original matrix W. PiSSA can better approximate the outcomes of full-parameter fine-tuning at the beginning by changing the essential parts while freezing the "noisy" parts. In comparison, LoRA freezes the original matrix and updates the "noise". This distinction enables PiSSA to convergence much faster than LoRA and also achieve better performance in the end. Due to the same architecture, PiSSA inherits many of LoRA's advantages, such as parameter efficiency and compatibility with quantization. Leveraging a fast SVD method, the initialization of PiSSA takes only a few seconds, inducing negligible cost of switching LoRA to PiSSA.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# SaTML '24 CNN解釈可能性コンペティション:概念レベル解釈性のための新しいイノベーション

The SaTML '24 CNN Interpretability Competition: New Innovations for Concept-Level Interpretability ( http://arxiv.org/abs/2404.02949v1 )

ライセンス: Link先を確認
Stephen Casper, Jieun Yun, Joonhyuk Baek, Yeseong Jung, Minhwan Kim, Kiwan Kwon, Saerom Park, Hayden Moore, David Shriver, Marissa Connor, Keltin Grimes, Angus Nicolson, Arush Tagade, Jessica Rumbelow, Hieu Minh Nguyen, Dylan Hadfield-Menell, (参考訳) 解釈可能性技術は、人間がAIシステムを理解し、監督するのを助けるのに有用である。 SaTML 2024 CNN解釈可能性コンペティションは、ImageNetスケールで畳み込みニューラルネットワーク(CNN)を研究する新しい手法を募集した。 競争の目的は、人間の群衆労働者がCNNでトロイの木を識別できるようにすることであった。 本報告では,4つのコンペの実施方法と結果を紹介する。 人間が解釈可能なツールを使って確実にトロイの木馬を診断するのを助けることは依然として困難である。 しかし、コンペティションのエントリーは新たな技術に貢献し、2023年のCasperらによるベンチマークで新しい記録を樹立した。

Interpretability techniques are valuable for helping humans understand and oversee AI systems. The SaTML 2024 CNN Interpretability Competition solicited novel methods for studying convolutional neural networks (CNNs) at the ImageNet scale. The objective of the competition was to help human crowd-workers identify trojans in CNNs. This report showcases the methods and results of four featured competition entries. It remains challenging to help humans reliably diagnose trojans via interpretability tools. However, the competition's entries have contributed new techniques and set a new record on the benchmark from Casper et al., 2023.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# 変分量子回路のサロゲート最適化

Surrogate optimization of variational quantum circuits ( http://arxiv.org/abs/2404.02951v1 )

ライセンス: Link先を確認
Erik J. Gustafson, Juha Tiihonen, Diana Chamaki, Farshud Sorourifar, J. Wayne Mullinax, Andy C. Y. Li, Filip B. Maciejewski, Nicolas PD Sawaya, Jaron T. Krogel, David E. Bernal Neira, Norm M. Tubman, (参考訳) 変分量子固有解法は、多くの応用に影響を及ぼすことのできる短期的アルゴリズムとして評価される。 しかし、そのポテンシャルはまだ実現されておらず、特にノイズの存在下での最適化の必要性から、量子的優位性や高い資源推定の主張はほとんどない。 収束性を改善するためのアルゴリズムや手法を見つけることは、VQEや最適化が必要なハイブリッド手法のより広範な応用において、短期的なハードウェアの能力を加速するために重要である。 この目的のために、回路シミュレーションと確率論的古典最適化で開発された現代的なアプローチを用いて、量子回路への代用最適化アプローチを形成することを検討する。 近似(古典的CPU/GPU)状態ベクトルシミュレータを代理モデルとして、量子処理ユニットや正確な回路シミュレータの入力として渡される近似ヘッセンを効率的に計算する。 この手法は量子処理ユニット間の並列化によく役立つ。 そこで本研究では,40量子ビットの量子処理ユニット上で,ノイズのサンプリングとサンプリングを伴わずにこのような手法を実演する。

Variational quantum eigensolvers are touted as a near-term algorithm capable of impacting many applications. However, the potential has not yet been realized, with few claims of quantum advantage and high resource estimates, especially due to the need for optimization in the presence of noise. Finding algorithms and methods to improve convergence is important to accelerate the capabilities of near-term hardware for VQE or more broad applications of hybrid methods in which optimization is required. To this goal, we look to use modern approaches developed in circuit simulations and stochastic classical optimization, which can be combined to form a surrogate optimization approach to quantum circuits. Using an approximate (classical CPU/GPU) state vector simulator as a surrogate model, we efficiently calculate an approximate Hessian, passed as an input for a quantum processing unit or exact circuit simulator. This method will lend itself well to parallelization across quantum processing units. We demonstrate the capabilities of such an approach with and without sampling noise and a proof-of-principle demonstration on a quantum processing unit utilizing 40 qubits.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# マニフォールド仮説のレンズによる深部生成モデル:調査と新しいつながり

Deep Generative Models through the Lens of the Manifold Hypothesis: A Survey and New Connections ( http://arxiv.org/abs/2404.02954v1 )

ライセンス: Link先を確認
Gabriel Loaiza-Ganem, Brendan Leigh Ross, Rasa Hosseinzadeh, Anthony L. Caterini, Jesse C. Cresswell, (参考訳) 近年、深層生成モデル(DGM)と多様体仮説の相互作用を理解することへの関心が高まっている。 本研究は,DGMが未知の低次元多様体上で支持される分布の学習に成功あるいは失敗する理由の解明と,多様体支援データを考慮した新しいモデルの開発に焦点をあてる。 この多様体レンズは、サンプル生成時にDGM(例えば拡散モデルや生成逆数ネットワーク)が他のDGM(例えば、変分オートエンコーダ、正規化フロー、エネルギーベースモデル)を経験的に上回る理由と、より高性能なDGMを考案するためのガイダンスの両方を提供する。 我々は、このレンズを通して見るDGMの最初の調査を行い、その過程で2つの新しい貢献をした。 まず,低次元データのモデル化において,高次元確率の数値不安定性は避けられないことを正式に証明する。 次に、自動エンコーダの学習表現上のDGMは、ワッサーシュタイン距離を概ね最小化するものとして解釈できることを示し、この結果は潜伏拡散モデルに適用され、その卓越した経験的結果の正当化に役立つ。 多様体レンズは、DGMを理解するためのリッチな視点を提供する。

In recent years there has been increased interest in understanding the interplay between deep generative models (DGMs) and the manifold hypothesis. Research in this area focuses on understanding the reasons why commonly-used DGMs succeed or fail at learning distributions supported on unknown low-dimensional manifolds, as well as developing new models explicitly designed to account for manifold-supported data. This manifold lens provides both clarity as to why some DGMs (e.g. diffusion models and some generative adversarial networks) empirically surpass others (e.g. likelihood-based models such as variational autoencoders, normalizing flows, or energy-based models) at sample generation, and guidance for devising more performant DGMs. We carry out the first survey of DGMs viewed through this lens, making two novel contributions along the way. First, we formally establish that numerical instability of high-dimensional likelihoods is unavoidable when modelling low-dimensional data. We then show that DGMs on learned representations of autoencoders can be interpreted as approximately minimizing Wasserstein distance: this result, which applies to latent diffusion models, helps justify their outstanding empirical results. The manifold lens provides a rich perspective from which to understand DGMs, which we aim to make more accessible and widespread.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# 2次元量子系における高効率臨界基底状態生成のための時空間クレンチ

Spatiotemporal Quenches for Efficient Critical Ground State Preparation in Two-Dimensional Quantum Systems ( http://arxiv.org/abs/2404.02957v1 )

ライセンス: Link先を確認
Simon Bernier, Kartiek Agarwal, (参考訳) 量子シミュレーターは、量子多体系や物質の研究に光を当てる可能性があり、様々な量子現象に関するユニークな洞察を提供する。 従来のアディバティック進化は、状態の準備に用いられてきたが、システムが急速に進化しすぎたり、コヒーレンス時間が限られていたりした場合、課題に直面している。 このような場合、時空間クエンチのような断熱へのショートカットは、有望な代替手段となる。 本稿では, 強磁性相互作用を持つ2次元横磁場Isingモデルにおける時空間クエンチの適用を数値的に検討し, ギャップが消滅したときの基底状態の出現とその相関特性に着目した。 臨界系における急速準備基底状態におけるこれらのクエンチの有効性を実証する。 シミュレーションにより、光の創発速度における最適クエンチ前速度の存在が明らかとなり、最小の励起エネルギー密度とシミュレーション可能な有限系サイズの相関長が得られる。 これらの知見は、量子系における効率的な基底状態準備のための時空間クエンチの可能性を強調し、強相関位相の探索やプログラム可能な量子コンピューティングに寄与する。

Quantum simulators have the potential to shed light on the study of quantum many-body systems and materials, offering unique insights into various quantum phenomena. While adiabatic evolution has been conventionally employed for state preparation, it faces challenges when the system evolves too quickly or the coherence time is limited. In such cases, shortcuts to adiabaticity, such as spatiotemporal quenches, provide a promising alternative. This paper numerically investigates the application of spatiotemporal quenches in the two-dimensional transverse field Ising model with ferromagnetic interactions, focusing on the emergence of the ground state and its correlation properties at criticality when the gap vanishes. We demonstrate the effectiveness of these quenches in rapidly preparing ground states in critical systems. Our simulations reveal the existence of an optimal quench front velocity at the emergent speed of light, leading to minimal excitation energy density and correlation lengths of the order of finite system sizes we can simulate. These findings emphasize the potential of spatiotemporal quenches for efficient ground state preparation in quantum systems, with implications for the exploration of strongly correlated phases and programmable quantum computing.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# 格子ゲージ理論における非平衡過程の量子熱力学

Quantum thermodynamics of nonequilibrium processes in lattice gauge theories ( http://arxiv.org/abs/2404.02965v1 )

ライセンス: Link先を確認
Zohreh Davoudi, Christopher Jarzynski, Niklas Mueller, Greeshma Oruganti, Connor Powers, Nicole Yunger Halpern, (参考訳) 核物理学と高エネルギー物理学の主要な目的は、標準模型から始まる初期の宇宙と粒子衝突器における物質の非平衡力学を記述することである。 格子ゲージ理論の枠組みを通じて古典計算法は、このミッションで限られた成功を収めてきた。 格子ゲージ理論の量子シミュレーションは、計算限界を克服することを約束する。 局所的制約(ガウスの法則)のため、格子ゲージ理論はヒルベルト空間構造を持つ。 この構造は平衡過程と非平衡過程の間に貯水池と結合した系の熱力学的性質の定義を複雑にする。 量子熱力学の分野に最近進出したフレームワークである強結合熱力学を用いて、仕事や熱などの熱力学量を定義する方法について述べる。 我々の定義は、量子シミュレータで実行される簡単な非平衡過程である瞬時クエンチに適合する。 この枠組みを説明するために、我々は1+1次元の物質と結合したZ_2$格子ゲージ理論において、クエンチ中の仕事と熱交換を計算する。 熱力学量は、クエンチパラメータの関数として、期待される相転移を示す。 一般的な熱状態に対しては、量子多体系の量子情報処理ツールで測定可能なハミルトニアンと、強い結合熱力学量を定義するために用いられる平均力のハミルトニアンとの間の単純な関係を導出する。

A key objective in nuclear and high-energy physics is to describe nonequilibrium dynamics of matter, e.g., in the early universe and in particle colliders, starting from the Standard Model. Classical-computing methods, via the framework of lattice gauge theory, have experienced limited success in this mission. Quantum simulation of lattice gauge theories holds promise for overcoming computational limitations. Because of local constraints (Gauss's laws), lattice gauge theories have an intricate Hilbert-space structure. This structure complicates the definition of thermodynamic properties of systems coupled to reservoirs during equilibrium and nonequilibrium processes. We show how to define thermodynamic quantities such as work and heat using strong-coupling thermodynamics, a framework that has recently burgeoned within the field of quantum thermodynamics. Our definitions suit instantaneous quenches, simple nonequilibrium processes undertaken in quantum simulators. To illustrate our framework, we compute the work and heat exchanged during a quench in a $Z_2$ lattice gauge theory coupled to matter in 1+1 dimensions. The thermodynamic quantities, as functions of the quench parameter, evidence an expected phase transition. For general thermal states, we derive a simple relation between a quantum many-body system's entanglement Hamiltonian, measurable with quantum-information-processing tools, and the Hamiltonian of mean force, used to define strong-coupling thermodynamic quantities.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# マグナス展開を用いた相互作用画像のハミルトンシミュレーション

Hamiltonian Simulation in the Interaction Picture Using the Magnus Expansion ( http://arxiv.org/abs/2404.02966v1 )

ライセンス: Link先を確認
Kunal Sharma, Minh C. Tran, (参考訳) 幾何学的局所なハミルトニアン$A$の力学を小さな幾何学的局所摂動$\alpha B$でシミュレーションするアルゴリズムを提案する。 特定の状況下では、アルゴリズムは最適なスケーリングを実現し、最先端のアルゴリズムより優れている。 A$の相互作用フレームに移行し、古典的に計算することで、相互作用ピクチャーハミルトニアンのマグナス展開を計算することで、我々のアルゴリズムは補助量子ビットの必要性を回避できる。 その性能を解析するために、マグナス作用素の準局所性を捕捉する枠組みを開発し、マグナストランケーションの誤差に対する厳密な境界を導いた。 リーブ・ロビンソン境界はまた、マグナス作用素の計算の効率と、その後の基本量子ゲートへの分解を保証している。 これらの特徴により、我々のアルゴリズムは、短期および早期耐食性シミュレーションにアピールできる。

We propose an algorithm for simulating the dynamics of a geometrically local Hamiltonian $A$ under a small geometrically local perturbation $\alpha B$. In certain regimes, the algorithm achieves the optimal scaling and outperforms the state-of-the-art algorithms. By moving into the interaction frame of $A$ and classically computing the Magnus expansion of the interaction-picture Hamiltonian, our algorithm bypasses the need for ancillary qubits. In analyzing its performance, we develop a framework to capture the quasi-locality of the Magnus operators, leading to a tightened bound for the error of the Magnus truncation. The Lieb-Robinson bound also guarantees the efficiency of computing the Magnus operators and of their subsequent decomposition into elementary quantum gates. These features make our algorithm appealing for near-term and early-fault-tolerant simulations.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# ランダム量子回路における弱測定誘起相転移の臨界特性

Critical Properties of Weak Measurement Induced Phase Transitions in Random Quantum Circuits ( http://arxiv.org/abs/2404.02968v1 )

ライセンス: Link先を確認
Kemal Aziz, Ahana Chakraborty, J. H. Pixley, (参考訳) 異なる形状の弱い測定が測定誘起相転移の性質に及ぼす影響は、量子ビットのハイブリッドランダム量子回路で理論的に研究されている。 本研究では, 臨界指数, 有効中心電荷, 測定誘起遷移のマルチフラクタルスペクトルを計算するために, 絡み合い測定, アンシラ浄化力学, 移動行列アプローチの組み合わせを用いる。 弱測定を無限個の離散的な結果と、一対の結果しか持たないプロトコルと比較し、我々の数値的精度において、普遍的臨界特性は弱測定プロトコルの影響を受けず、強い射影測定で見られる普遍性クラスと一致していることを示す。

The effects of different forms of weak measurements on the nature of the measurement induced phase transition are theoretically studied in hybrid random quantum circuits of qubits. We use a combination of entanglement measures, ancilla purification dynamics, and a transfer matrix approach to compute the critical exponents, the effective central charge, and the multifractal spectrum of the measurement induced transitions. We compare weak measurements with an infinite number of discrete outcomes to a protocol with only a pair of outcomes and find that to within our numerical accuracy the universal critical properties are unaffected by the weak measurement protocols and are consistent with the universality class found for strong projective measurements.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# 銀河画像のスケーリング法則

Scaling Laws for Galaxy Images ( http://arxiv.org/abs/2404.02973v1 )

ライセンス: Link先を確認
Mike Walmsley, Micah Bowles, Anna M. M. Scaife, Jason Shingirai Makechemu, Alexander J. Gordon, Annette M. N. Ferguson, Robert G. Mann, James Pearson, Jürgen J. Popp, Jo Bovy, Josh Speagle, Hugh Dickinson, Lucy Fortson, Tobias Géron, Sandor Kruk, Chris J. Lintott, Kameswara Mantha, Devina Mohan, David O'Ryan, Inigo V. Slijepevic, (参考訳) 我々は、銀河の画像に対して、ImageNetのようなコンテキスト外における教師付きスケーリング法則を初めて体系的に研究した。 我々は840kの銀河画像と、Galaxy Zooのボランティアによる1億以上のアノテーションを使い、スケールはImagenet-1Kに匹敵する。 注釈付き銀河画像を追加することで、全てのアーキテクチャと全てのタスクのパフォーマンスが向上する一方で、トレーニング可能なパラメータを追加することは、いくつかの(典型的にはより主観的な)タスクにのみ有効であることがわかった。 次に、ImageNet-12k単独で事前訓練された微調整モデルの下流性能と、銀河画像で追加訓練された微調整モデルの比較を行った。 科学的関心のある5つの下流タスクにおいて,平均相対誤差率を31%削減する。 我々の微調整モデルはよりラベル効率が良く、ImageNet-12kで事前訓練された同等のモデルとは異なり、しばしばエンドツーエンドの微調整と同等の線形転送性能を達成する。 モデルのサイズをスケールすることによる、比較的控えめなダウンストリームのメリットは、ドメインギャップに対処するのにスケーリングだけでは不十分であることを示唆し、質的に異なるイメージを持つ実践者は、ドメイン内の適応と、ターゲットとするダウンストリームラベリングの恩恵を受ける可能性があることを示唆している。

We present the first systematic investigation of supervised scaling laws outside of an ImageNet-like context - on images of galaxies. We use 840k galaxy images and over 100M annotations by Galaxy Zoo volunteers, comparable in scale to Imagenet-1K. We find that adding annotated galaxy images provides a power law improvement in performance across all architectures and all tasks, while adding trainable parameters is effective only for some (typically more subjectively challenging) tasks. We then compare the downstream performance of finetuned models pretrained on either ImageNet-12k alone vs. additionally pretrained on our galaxy images. We achieve an average relative error rate reduction of 31% across 5 downstream tasks of scientific interest. Our finetuned models are more label-efficient and, unlike their ImageNet-12k-pretrained equivalents, often achieve linear transfer performance equal to that of end-to-end finetuning. We find relatively modest additional downstream benefits from scaling model size, implying that scaling alone is not sufficient to address our domain gap, and suggest that practitioners with qualitatively different images might benefit more from in-domain adaption followed by targeted downstream labelling.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# 量子回路における零温度エンタングルメント膜

Zero-temperature entanglement membranes in quantum circuits ( http://arxiv.org/abs/2404.02975v1 )

ライセンス: Link先を確認
Grace M. Sommers, Sarang Gopalakrishnan, Michael J. Gullans, David A. Huse, (参考訳) カオス量子系において、領域$A$の絡み合いは、A$の境界に固定された時空膜の表面張力の観点から記述することができる。 ここでは,この絡み合い膜の張力について,情報の「流れる」速度で解釈する。 膜上の任意の向きについて、膜全体にわたる(本質的には非一意的な)ダイナミクスを定義することができ、このダイナミクスを1次元と2次元の様々な時空変換不変回路(STTI)で探索する。 これらのSTTI回路の膜にまたがる情報のフラックスは定常状態に達する。 このダイナミクスが非一意であり、定常状態のフラックスがゼロでない場合、これは膜を横切るダイナミクスが広いエントロピーのサブ空間でユニタリであるためである。 この一般化されたユニタリティは、STTI安定化回路の幅広いクラスに存在し、いくつかの特別な非安定化器モデルにも存在している。 多重ユニタリ方向(あるいは一般化ユニタリ方向)の存在は、エンタングルメント膜張力が膜配向の断片的に線形関数となることを強制する。 ボリューム・ロー・エンタングルメントを発生させるランダム・スタビライザー回路におけるエンタングルメント膜は、ゼロ温度でも有効であると主張する。

In chaotic quantum systems, the entanglement of a region $A$ can be described in terms of the surface tension of a spacetime membrane pinned to the boundary of $A$. Here, we interpret the tension of this entanglement membrane in terms of the rate at which information "flows" across it. For any orientation of the membrane, one can define (generically nonunitary) dynamics across the membrane; we explore this dynamics in various space-time translation-invariant (STTI) stabilizer circuits in one and two spatial dimensions. We find that the flux of information across the membrane in these STTI circuits reaches a steady state. In the cases where this dynamics is nonunitary and the steady state flux is nonzero, this occurs because the dynamics across the membrane is unitary in a subspace of extensive entropy. This generalized unitarity is present in a broad class of STTI stabilizer circuits, and is also present in some special non-stabilizer models. The existence of multiple unitary (or generalized unitary) directions forces the entanglement membrane tension to be a piecewise linear function of the orientation of the membrane; in this respect, the entanglement membrane behaves like an interface in a zero-temperature classical lattice model. We argue that entanglement membranes in random stabilizer circuits that produce volume-law entanglement are also effectively at zero temperature.
翻訳日:2024-04-05 18:54:31 公開日:2024-04-03
# メタファー理解のための完全解釈可能でよりスケーラブルなRSAモデルに向けて

Towards a Fully Interpretable and More Scalable RSA Model for Metaphor Understanding ( http://arxiv.org/abs/2404.02983v1 )

ライセンス: Link先を確認
Gaia Carenini, Luca Bischetti, Walter Schaeken, Valentina Bambini, (参考訳) Rational Speech Act (RSA) モデルは、計算用語で実用的推論をモデル化するための柔軟なフレームワークを提供する。 しかし、最先端のRSAモデルは現代の機械学習技術からかなり離れており、その解釈可能性やスケーラビリティに関連する多くの制限が提示されている。 本稿では,話者とリスナーの相互に共有される情報に基づいて,これらの制約に対処するメタファー理解のための新たなRSAフレームワークを提案する。 このモデルは従来の$\textit{John-is-a-shark}$型に限らず、24のメタファに対してテストされた。 その結果, モデルが生成した分布と人間の行動データから得られた解釈との間には, 全体的正の相関関係があることが示唆された。 全体としては、メタファ処理は、よりスケーラブルで解釈可能なベイズモデルでも、典型的に基づくベイズモデルによってうまく捉えられ、他の実用的な現象への応用や、大規模言語モデルの解釈可能性を高めるための新しい用途が開かれることを示唆している。 しかし結果は、語彙概念に厳密にエンコードされていない比喩的意味のより創造的なニュアンスが、機械にとって難しい側面であることを浮き彫りにしている。

The Rational Speech Act (RSA) model provides a flexible framework to model pragmatic reasoning in computational terms. However, state-of-the-art RSA models are still fairly distant from modern machine learning techniques and present a number of limitations related to their interpretability and scalability. Here, we introduce a new RSA framework for metaphor understanding that addresses these limitations by providing an explicit formula - based on the mutually shared information between the speaker and the listener - for the estimation of the communicative goal and by learning the rationality parameter using gradient-based methods. The model was tested against 24 metaphors, not limited to the conventional $\textit{John-is-a-shark}$ type. Results suggest an overall strong positive correlation between the distributions generated by the model and the interpretations obtained from the human behavioral data, which increased when the intended meaning capitalized on properties that were inherent to the vehicle concept. Overall, findings suggest that metaphor processing is well captured by a typicality-based Bayesian model, even when more scalable and interpretable, opening up possible applications to other pragmatic phenomena and novel uses for increasing Large Language Models interpretability. Yet, results highlight that the more creative nuances of metaphorical meaning, not strictly encoded in the lexical concepts, are a challenging aspect for machines.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# ニューラル演算子フローを用いたユニバーサル関数回帰

Universal Functional Regression with Neural Operator Flows ( http://arxiv.org/abs/2404.02986v1 )

ライセンス: Link先を確認
Yaozhong Shi, Angela F. Gao, Zachary E. Ross, Kamyar Azizzadenesheli, (参考訳) 関数空間上の回帰は通常、ガウス過程の先行するモデルに限られる。 普遍汎関数回帰の概念を導入し、非ガウス函数空間上の非ガウス函数空間上の事前分布を数学的に導出可能とする。 そこで我々は,正規化フローの無限次元拡張であるNeural Operator Flows (OpFlow) を開発した。 OpFlowは(潜在的に未知の)データ関数空間をガウス過程にマッピングする可逆演算子であり、関数点評価の正確な推定を可能にする。 OpFlowはガウス過程の後方サンプルを描画し、それからデータ関数空間にマッピングすることで、堅牢で正確な不確実性定量化を可能にする。 我々は,ガウス過程と非ガウス過程,および未知の閉形分布を持つ実世界の地震地震計から生成されたデータを用いて,OpFlowの回帰・生成タスクにおける性能を実証的に研究した。

Regression on function spaces is typically limited to models with Gaussian process priors. We introduce the notion of universal functional regression, in which we aim to learn a prior distribution over non-Gaussian function spaces that remains mathematically tractable for functional regression. To do this, we develop Neural Operator Flows (OpFlow), an infinite-dimensional extension of normalizing flows. OpFlow is an invertible operator that maps the (potentially unknown) data function space into a Gaussian process, allowing for exact likelihood estimation of functional point evaluations. OpFlow enables robust and accurate uncertainty quantification via drawing posterior samples of the Gaussian process and subsequently mapping them into the data function space. We empirically study the performance of OpFlow on regression and generation tasks with data generated from Gaussian processes with known posterior forms and non-Gaussian processes, as well as real-world earthquake seismograms with an unknown closed-form distribution.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# 非定常分布を用いたリスク・アバース学習

Risk-averse Learning with Non-Stationary Distributions ( http://arxiv.org/abs/2404.02988v1 )

ライセンス: Link先を確認
Siyi Wang, Zifan Wang, Xinlei Yi, Michael M. Zavlanos, Karl H. Johansson, Sandra Hirche, (参考訳) オンライン最適化における非定常環境を考えると、意思決定者は変化に効果的に適応し、時間とともにパフォーマンスを向上させることができる。 このような場合、潜在的に危険な状況を避けるために、変化の負の影響を最小限に抑える戦略を採用するのが好ましい。 本稿では,ランダムなコスト分布が時間とともに変化するリスク-逆オンライン最適化について検討する。 リスクの条件値(CVaR)をリスク尺度として用いたリスク逆目的関数を最小化する。 正確なCVaR勾配を得るのが難しいため、ゼロ階最適化手法を用いて、各イテレーションのコスト関数値を複数回クエリし、サンプル値を用いてCVaR勾配を推定する。 後悔解析を容易にするために、ワッサーシュタイン距離に基づく変動計量を用いて時間変化分布を捉える。 この分布変動がエピソードの総数でサブ線形であることを考えると,我々の設計した学習アルゴリズムは,凸関数と凸関数の双方に対して高い確率で,サブ線形動的後悔を達成できることが分かる。 さらに, サンプル数の増加は, サンプリング数が特定の限界に達するまで, 動的後悔境界の減少につながることが理論的に示唆された。 最後に,駐車場における動的価格の数値実験を行い,設計アルゴリズムの有効性を示す。

Considering non-stationary environments in online optimization enables decision-maker to effectively adapt to changes and improve its performance over time. In such cases, it is favorable to adopt a strategy that minimizes the negative impact of change to avoid potentially risky situations. In this paper, we investigate risk-averse online optimization where the distribution of the random cost changes over time. We minimize risk-averse objective function using the Conditional Value at Risk (CVaR) as risk measure. Due to the difficulty in obtaining the exact CVaR gradient, we employ a zeroth-order optimization approach that queries the cost function values multiple times at each iteration and estimates the CVaR gradient using the sampled values. To facilitate the regret analysis, we use a variation metric based on Wasserstein distance to capture time-varying distributions. Given that the distribution variation is sub-linear in the total number of episodes, we show that our designed learning algorithm achieves sub-linear dynamic regret with high probability for both convex and strongly convex functions. Moreover, theoretical results suggest that increasing the number of samples leads to a reduction in the dynamic regret bounds until the sampling number reaches a specific limit. Finally, we provide numerical experiments of dynamic pricing in a parking lot to illustrate the efficacy of the designed algorithm.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# コヒーレント量子位相スリップによるフルオキソニウムの劣化

Dephasing in Fluxonium Qubits from Coherent Quantum Phase Slips ( http://arxiv.org/abs/2404.02989v1 )

ライセンス: Link先を確認
Mallika T. Randeria, Thomas M. Hazard, Agustin Di Paolo, Kate Azar, Max Hays, Leon Ding, Junyoung An, Michael Gingras, Bethany M. Niedzielski, Hannah Stickler, Jeffrey A. Grover, Jonilyn L. Yoder, Mollie E. Schwartz, William D. Oliver, Kyle Serniak, (参考訳) 位相すべりは、すべてのジョセフソン接合(JJ)で起こるが、これは接合のインピーダンスによって増加する。 JJアレイのスーパーインダクタ(フラキソニウムなど)からなる超伝導量子ビットでは、アレイ内の位相スリップがデコヒーレンスを引き起こす。 特に、個々の配列接合における位相-スリップ過程は、それぞれアハロノフ-カシエ相とコヒーレントに干渉し、配列列島のオフセット電荷に依存する。 これらのコヒーレント量子位相スリップ(CQPS)は、クォービット周波数を摂動的に変化させるため、配列島の電荷ノイズは劣化を引き起こす。 アレイ接合のインピーダンスを変化させることで、JJアレイ内で期待される位相-滑り速度が数桁のオーダーで変化するフラクソニウム量子ビットの集合を設計する。 我々はこれらの量子ビットのコヒーレンス時間を特徴付け、CQPSによって引き起こされる劣化率のスケーリングが我々の理論モデルと一致することを示す。 さらに、CQPSまたはフラックスノイズに支配されるレジームにおいて、2つの量子ビットの雑音スペクトルを実行する。 CQPSの劣化に伴うノイズパワースペクトルは、低周波数で機能しておらず、1/f$ではない。 数値シミュレーションにより、この挙動はアレイ内の電荷-パリティ変動によって生じる電荷雑音と一致していることが示された。 JJ-アレースーパーインダクタを用いた数多くの超伝導量子ビット設計に関係したJJ-アレー設計のトレードオフを広く報告した。

Phase slips occur across all Josephson junctions (JJs) at a rate that increases with the impedance of the junction. In superconducting qubits composed of JJ-array superinductors -- such as fluxonium -- phase slips in the array can lead to decoherence. In particular, phase-slip processes at the individual array junctions can coherently interfere, each with an Aharonov--Casher phase that depends on the offset charges of the array islands. These coherent quantum phase slips (CQPS) perturbatively modify the qubit frequency, and therefore charge noise on the array islands will lead to dephasing. By varying the impedance of the array junctions, we design a set of fluxonium qubits in which the expected phase-slip rate within the JJ-array changes by several orders of magnitude. We characterize the coherence times of these qubits and demonstrate that the scaling of CQPS-induced dephasing rates agrees with our theoretical model. Furthermore, we perform noise spectroscopy of two qubits in regimes dominated by either CQPS or flux noise. We find the noise power spectrum associated with CQPS dephasing appears to be featureless at low frequencies and not $1/f$. Numerical simulations indicate this behavior is consistent with charge noise generated by charge-parity fluctuations within the array. Our findings broadly inform JJ-array-design tradeoffs, relevant for the numerous superconducting qubit designs employing JJ-array superinductors.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# ASAP: 大規模AI生成画像パターンの解釈解析と要約

ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale ( http://arxiv.org/abs/2404.02990v1 )

ライセンス: Link先を確認
Jinbin Huang, Chen Chen, Aditi Mishra, Bum Chul Kwon, Zhicheng Liu, Chris Bryan, (参考訳) 生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。 潜在的な利益にもかかわらず、その誤用、特に重大な倫理的、法的、社会的な問題を提起する偽画像の生成に対する懸念が高まっている。 結果として、AI生成画像のパターンを効果的に識別し、理解できるように、ユーザに権限を与える需要が高まっている。 そこで我々は,AI生成画像の異なるパターンを自動的に抽出し,ユーザが様々なビューを通じてインタラクティブに探索できる対話型可視化システムASAPを開発した。 偽のパターンを明らかにするために、ASAPはCLIPから適応した新しい画像エンコーダを導入し、画像をコンパクトな「蒸留された」表現に変換する。 これらの表現はCLIPのトランスフォーマーブロックのアテンションマップに伝播する勾配を生成する。 このプロセスは、各画素の画像の真偽に対する相対的な重要性を定量化し、キー偽造パターンを露呈する。 ASAPは、複数の協調した視覚化を通じて、これらのパターンを大規模にインタラクティブに分析することを可能にする。 これには、多数の画像にわたる偽パターンの探索と質的評価を支援する革新的なセルグリフによる表現概要と、画像に真正性を示すパターンを表示し、その影響を定量化するパターンビューが含まれる。 ASAPは最新のアーキテクチャによる最先端生成モデルの解析をサポートしており、proGANのようなGANベースのモデルや潜在拡散モデルのような拡散モデルを含んでいる。 複数の偽画像検出ベンチマークデータセットを使用して、ASAPの有用性を2つのユースケースで実証し、AI生成画像の隠れパターンを識別し、理解する能力、特に拡散ベースの手法によって生成された偽の人間の顔を検出する能力を明らかにした。

Generative image models have emerged as a promising technology to produce realistic images. Despite potential benefits, concerns grow about its misuse, particularly in generating deceptive images that could raise significant ethical, legal, and societal issues. Consequently, there is growing demand to empower users to effectively discern and comprehend patterns of AI-generated images. To this end, we developed ASAP, an interactive visualization system that automatically extracts distinct patterns of AI-generated images and allows users to interactively explore them via various views. To uncover fake patterns, ASAP introduces a novel image encoder, adapted from CLIP, which transforms images into compact "distilled" representations, enriched with information for differentiating authentic and fake images. These representations generate gradients that propagate back to the attention maps of CLIP's transformer block. This process quantifies the relative importance of each pixel to image authenticity or fakeness, exposing key deceptive patterns. ASAP enables the at scale interactive analysis of these patterns through multiple, coordinated visualizations. This includes a representation overview with innovative cell glyphs to aid in the exploration and qualitative evaluation of fake patterns across a vast array of images, as well as a pattern view that displays authenticity-indicating patterns in images and quantifies their impact. ASAP supports the analysis of cutting-edge generative models with the latest architectures, including GAN-based models like proGAN and diffusion models like the latent diffusion model. We demonstrate ASAP's usefulness through two usage scenarios using multiple fake image detection benchmark datasets, revealing its ability to identify and understand hidden patterns in AI-generated images, especially in detecting fake human faces produced by diffusion-based techniques.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# Goldilocks量子セルオートマトンの積分性

Integrability of Goldilocks quantum cellular automata ( http://arxiv.org/abs/2404.02994v1 )

ライセンス: Link先を確認
Logan E. Hillberry, Lorenzo Piroli, Eric Vernier, Nicole Yunger Halpern, Tomaž Prosen, Lincoln D. Carr, (参考訳) ゴールディロックス量子セルオートマトン (QCA) は量子ハードウェア上でシミュレートされ、創発的な小世界相関ネットワークを生み出している。 ゴールディロックス QCA では、バランス制約を受ける1次元鎖内の各キュービットに1ビットのユニタリが適用される:隣人が反対基底状態である場合、キュービットは更新される。 ここでは、実験的に実装されたGoldilocks QCAのサブクラスが自由フェルミオンに写像されることを証明し、したがって古典的に効率的にシミュレートできる。 我々はこの主張を、ヨルダン・ウィグナー変換を含む2つの独立した証明と、積分可能な6頂点モデルをQCAにマッピングすることで支持する。 我々はこれらのQCAの局所保存量を計算し、実験的に測定可能な期待値を予測する。 これらの計算は、既知の解に対して大規模なデジタル量子コンピュータをテストするために適用することができる。 対照的に、典型的なゴールディロック QCA は、非可積分性を示す平衡特性と準エネルギーレベル統計を持つ。 それでも、後者のQCAは、エラー軽減に役立つ1つの量を保存する。 我々の研究は、量子ハードウェアをテストするための可変積分性特性を持つパラメトリック量子回路を提供する。

Goldilocks quantum cellular automata (QCA) have been simulated on quantum hardware and produce emergent small-world correlation networks. In Goldilocks QCA, a single-qubit unitary is applied to each qubit in a one-dimensional chain subject to a balance constraint: a qubit is updated if its neighbors are in opposite basis states. Here, we prove that a subclass of Goldilocks QCA -- including the one implemented experimentally -- map onto free fermions and therefore can be classically simulated efficiently. We support this claim with two independent proofs, one involving a Jordan--Wigner transformation and one mapping the integrable six-vertex model to QCA. We compute local conserved quantities of these QCA and predict experimentally measurable expectation values. These calculations can be applied to test large digital quantum computers against known solutions. In contrast, typical Goldilocks QCA have equilibration properties and quasienergy-level statistics that suggest nonintegrability. Still, the latter QCA conserve one quantity useful for error mitigation. Our work provides a parametric quantum circuit with tunable integrability properties with which to test quantum hardware.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# 一次元液滴環境における分散衝撃波

Dispersive shock waves in a one-dimensional droplet environment ( http://arxiv.org/abs/2404.02998v1 )

ライセンス: Link先を確認
Sathyanarayanan Chandramouli, Simeon I. Mistakidis, Garyfallia C. Katsimiga, Panayotis G. Kevrekidis, (参考訳) 本研究では, ステップ状初期条件の助けを借りて, 量子液滴軸受環境に発生する分散衝撃波の制御可能な生成を実証する。 続く流体力学特異点の分散正則化は、平均場反発と魅力的な量子ゆらぎの競合によって生じる。 この相互作用は、音の実速と想像速度によってそれぞれ指定されるデフォーカス(双曲)と集中(楕円)の流体力学現象の優位性を示す。 具体的には、Gross-Pitaevskiiモデルの拡張対称性は、ここで用いられるリーマン問題の2つの密度と相対速度を含む3パラメータの族に導かれる。 驚くべきことに、分散衝撃波は双曲から楕円のしきい値を越えて持続する一方、レアファクテーション波、走行する分散衝撃波、(反)キンク、および液滴波列などの追加の波動パターンが出現する。 これらの特徴の分類と特徴づけは、ウィットハム変調理論を展開させることによって達成される。 この結果から, 多数の未探索コヒーレントに伝播する波形を, 魅力的な相互作用を持つ混合物中で明らかにし, 現状の実験で検出できる可能性が示唆された。

We demonstrate the controllable generation of distinct types of dispersive shock-waves emerging in a quantum droplet bearing environment with the aid of step-like initial conditions. Dispersive regularization of the ensuing hydrodynamic singularities occurs due to the competition between meanfield repulsion and attractive quantum fluctuations. This interplay delineates the dominance of defocusing (hyperbolic) and focusing (elliptic) hydrodynamic phenomena respectively being designated by real and imaginary speed of sound. Specifically, the symmetries of the extended Gross-Pitaevskii model lead to a three-parameter family, encompassing two densities and a relative velocity, of the underlying Riemann problem utilized herein. Surprisingly, dispersive shock waves persist across the hyperbolic-to-elliptic threshold, while a plethora of additional wave patterns arise, such as rarefaction waves, traveling dispersive shock waves, (anti)kinks and droplet wavetrains. The classification and characterization of these features is achieved by deploying Whitham modulation theory. Our results pave the way for unveiling a multitude of unexplored coherently propagating waveforms in such attractively interacting mixtures and should be detectable by current experiments.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# MeshBrush: 内視鏡のための神経スチル化による解剖学的メッシュの塗装

MeshBrush: Painting the Anatomical Mesh with Neural Stylization for Endoscopy ( http://arxiv.org/abs/2404.02999v1 )

ライセンス: Link先を確認
John J. Han, Ayberk Acar, Nicholas Kavoussi, Jie Ying Wu, (参考訳) スタイルトランスファーは、医療内視鏡におけるシミュレートとリアルのギャップを埋めるための有望なアプローチである。 手術前スキャン(MRIやCTなど)をトラバースすることで、リアルな内視鏡映像をレンダリングすることで、現実的なシミュレーションや、地上の真相カメラのポーズや深度マップを生成することができる。 CycleGANのようなイメージ・ツー・イメージ(I2I)翻訳モデルはよく機能するが、時間的一貫性の欠如によりビデオ・ツー・ビデオ合成には適さないため、フレーム間のアーティファクトが生じる。 本稿では、時間的に一貫した動画を異なるレンダリングで合成するニューラルネットワークスタイリング手法であるMeshBrushを提案する。 MeshBrushは、既存のI2Iメソッドを活用しながら、患者の画像データの基礎となる幾何学を使用している。 学習した頂点ごとのテクスチャにより、スタイリングされたメッシュは、高忠実度出力を生成しながら一貫性を保証する。 我々は、メッシュスタイリングが、トレーニングや事前作業計画といった下流タスクの現実的なシミュレーションを作成するための有望なアプローチであることを実証した。 本手法は尿管内視鏡検査に応用できるが, 一般的な内視鏡および腹腔鏡下手術に応用できる。

Style transfer is a promising approach to close the sim-to-real gap in medical endoscopy. Rendering realistic endoscopic videos by traversing pre-operative scans (such as MRI or CT) can generate realistic simulations as well as ground truth camera poses and depth maps. Although image-to-image (I2I) translation models such as CycleGAN perform well, they are unsuitable for video-to-video synthesis due to the lack of temporal consistency, resulting in artifacts between frames. We propose MeshBrush, a neural mesh stylization method to synthesize temporally consistent videos with differentiable rendering. MeshBrush uses the underlying geometry of patient imaging data while leveraging existing I2I methods. With learned per-vertex textures, the stylized mesh guarantees consistency while producing high-fidelity outputs. We demonstrate that mesh stylization is a promising approach for creating realistic simulations for downstream tasks such as training and preoperative planning. Although our method is tested and designed for ureteroscopy, its components are transferable to general endoscopic and laparoscopic procedures.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# 細管構造の接続性と資源効率を考慮したスケルトンリコール損失

Skeleton Recall Loss for Connectivity Conserving and Resource Efficient Segmentation of Thin Tubular Structures ( http://arxiv.org/abs/2404.03010v1 )

ライセンス: Link先を確認
Yannick Kirchhoff, Maximilian R. Rokuss, Saikat Roy, Balint Kovacs, Constantin Ulrich, Tassilo Wald, Maximilian Zenk, Philipp Vollmuth, Jens Kleesiek, Fabian Isensee, Klaus Maier-Hein, (参考訳) 容器、神経、道路、コンクリートクラックなどの細い管状構造を正確に分断することは、コンピュータビジョンにおいて重要な課題である。 DiceやCross-Entropyのような標準的なディープラーニングベースのセグメンテーション損失関数は、しばしば構造的な接続性やトポロジーを犠牲にして、ボリュームオーバーラップに焦点を当てている。 これは、フロー計算、ナビゲーション、構造検査などの下流タスクに悪影響を及ぼすセグメンテーションエラーを引き起こす可能性がある。 現在のトポロジに焦点をあてた損失は改善の兆しとなるが、計算とメモリのオーバーヘッドがかなり大きい。 これは特に3Dデータに関係しており、これらの損失は大きなボリュームでは実現不可能であり、また、より重要なマルチクラスのセグメンテーション問題も抱えている。 そこで本稿では,GPUベースの計算を低コストなCPU操作で回避し,これらの課題を効果的に解決する新しいSkeleton Recall Lossを提案する。 これは、トポロジ保存セグメンテーションのための5つのパブリックデータセットに対する現在の最先端アプローチに比べて、全体的なパフォーマンスを向上し、計算オーバーヘッドを90%以上削減する。 そこで我々は, 最薄構造セグメンテーションのための最初の多クラス能動損失関数を導入し, トポロジー保存の効率性と有効性に優れていた。

Accurately segmenting thin tubular structures, such as vessels, nerves, roads or concrete cracks, is a crucial task in computer vision. Standard deep learning-based segmentation loss functions, such as Dice or Cross-Entropy, focus on volumetric overlap, often at the expense of preserving structural connectivity or topology. This can lead to segmentation errors that adversely affect downstream tasks, including flow calculation, navigation, and structural inspection. Although current topology-focused losses mark an improvement, they introduce significant computational and memory overheads. This is particularly relevant for 3D data, rendering these losses infeasible for larger volumes as well as increasingly important multi-class segmentation problems. To mitigate this, we propose a novel Skeleton Recall Loss, which effectively addresses these challenges by circumventing intensive GPU-based calculations with inexpensive CPU operations. It demonstrates overall superior performance to current state-of-the-art approaches on five public datasets for topology-preserving segmentation, while substantially reducing computational overheads by more than 90%. In doing so, we introduce the first multi-class capable loss function for thin structure segmentation, excelling in both efficiency and efficacy for topology-preservation.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# 風力タービンの異常検出のための伝達学習応用

Transfer learning applications for anomaly detection in wind turbines ( http://arxiv.org/abs/2404.03011v1 )

ライセンス: Link先を確認
Cyriana M. A. Roelofs, Christian Gück, Stefan Faulstich, (参考訳) 風力タービンの異常検出は通常、異常を早期に検出するために通常の挙動モデルを使用する。 しかし、各タービンのオートエンコーダモデルの訓練には時間とリソースが費やされている。 したがって、伝達学習は限られたデータを持つ風力タービンや限られた計算資源を持つ応用にとって必須となる。 本研究では, 自動エンコーダによる異常検出において, 橋渡し学習をいかに応用できるかを検討する。 ここでは、入力データが異常を含むか否かを判断するために、オートエンコーダと再構成誤差のしきい値が組み合わされる。 モデルは当初、1年分の1の風力タービンからのデータに基づいて訓練されている。 その後、他のタービンからの少ない量のデータを使って微調整される。 オートエンコーダ全体,デコーダのみ,あるいはモデルのしきい値のみを調整する3つの微調整方法について検討した。 伝達学習モデルの性能は、目標風力タービンから1年分のデータに基づいてトレーニングされたベースラインモデルと比較される。 本研究では,複数の風力タービンのデータに基づいてトレーニングしたモデルでは,1つの風力タービンのデータに基づいてトレーニングしたモデルと比較して,異常検出能力が向上しないことを示す。 さらに、モデルのしきい値を変更することで、ベースラインに比べて同等またはそれ以上の性能が向上する一方、デコーダやオートエンコーダの微調整により、モデルのパフォーマンスがさらに向上する。

Anomaly detection in wind turbines typically involves using normal behaviour models to detect faults early. However, training autoencoder models for each turbine is time-consuming and resource intensive. Thus, transfer learning becomes essential for wind turbines with limited data or applications with limited computational resources. This study examines how cross-turbine transfer learning can be applied to autoencoder-based anomaly detection. Here, autoencoders are combined with constant thresholds for the reconstruction error to determine if input data contains an anomaly. The models are initially trained on one year's worth of data from one or more source wind turbines. They are then fine-tuned using smaller amounts of data from another turbine. Three methods for fine-tuning are investigated: adjusting the entire autoencoder, only the decoder, or only the threshold of the model. The performance of the transfer learning models is compared to baseline models that were trained on one year's worth of data from the target wind turbine. The results of the tests conducted in this study indicate that models trained on data of multiple wind turbines do not improve the anomaly detection capability compared to models trained on data of one source wind turbine. In addition, modifying the model's threshold can lead to comparable or even superior performance compared to the baseline, whereas fine-tuning the decoder or autoencoder further enhances the models' performance.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# 凸・拘束状態におけるスペクトルクラスタリング

Spectral Clustering in Convex and Constrained Settings ( http://arxiv.org/abs/2404.03012v1 )

ライセンス: Link先を確認
Swarup Ranjan Behera, Vijaya V. Saradhi, (参考訳) スペクトルクラスタリング法は高次元データのクラスタリングにおける有効性について広く認識されている。 これらの技術の中で、制約付きスペクトルクラスタリングが顕著なアプローチとして登場し、ペアの制約を統合することで性能の向上が図られている。 しかし、半定スペクトルクラスタリング(半定スペクトルクラスタリング)へのそのような制約の適用は、半定スペクトルクラスタリングの目的を最適化するために半定スペクトルクラスタリングを利用する変種であり、ほとんど探索されていない。 本稿では,ペアワイズ制約を半定スペクトルクラスタリングにシームレスに統合する新しいフレームワークを提案する。 提案手法は,半定スペクトルクラスタリングの能力を体系的に拡張し,複雑なデータ構造を捕捉し,現実のクラスタリングをより効果的に解決する。 さらに、このフレームワークをアクティブな学習シナリオと自己学習シナリオの両方に拡張し、その汎用性と適用性をさらに強化する。 良く知られたデータセットで実施された実証研究は、既存のスペクトルクラスタリング手法よりも提案したフレームワークの優位性を実証し、多様なデータセットや学習環境にまたがる堅牢性とスケーラビリティを実証した。 制約付き学習と半定スペクトルクラスタリングのギャップを埋めることで、我々の研究はスペクトルクラスタリング技術の進歩に寄与し、研究者や実践者は様々な現実世界のアプリケーションにおける複雑なクラスタリング問題に対処するための汎用的なツールを提供する。 データ、コード、実験結果へのアクセスは、さらなる探索のために提供される(https://github.com/swarupbehera/SCCCS)。

Spectral clustering methods have gained widespread recognition for their effectiveness in clustering high-dimensional data. Among these techniques, constrained spectral clustering has emerged as a prominent approach, demonstrating enhanced performance by integrating pairwise constraints. However, the application of such constraints to semidefinite spectral clustering, a variant that leverages semidefinite programming to optimize clustering objectives, remains largely unexplored. In this paper, we introduce a novel framework for seamlessly integrating pairwise constraints into semidefinite spectral clustering. Our methodology systematically extends the capabilities of semidefinite spectral clustering to capture complex data structures, thereby addressing real-world clustering challenges more effectively. Additionally, we extend this framework to encompass both active and self-taught learning scenarios, further enhancing its versatility and applicability. Empirical studies conducted on well-known datasets demonstrate the superiority of our proposed framework over existing spectral clustering methods, showcasing its robustness and scalability across diverse datasets and learning settings. By bridging the gap between constrained learning and semidefinite spectral clustering, our work contributes to the advancement of spectral clustering techniques, offering researchers and practitioners a versatile tool for addressing complex clustering challenges in various real-world applications. Access to the data, code, and experimental results is provided for further exploration (https://github.com/swarupbehera/SCCCS).
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# DPFT:カメラレーダーによる物体検出のためのデュアルパースペクティブフュージョン変換器

DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection ( http://arxiv.org/abs/2404.03015v1 )

ライセンス: Link先を確認
Felix Fent, Andras Palffy, Holger Caesar, (参考訳) 自動運転車の認識は効率的で堅牢で費用対効果が高い必要がある。 しかし、カメラは厳しい気象条件には耐えられず、ライダーセンサーは高価であり、レーダーによる認識の性能は他のものよりも劣っている。 カメラとレーダーの融合法はこの問題に対処するために提案されているが、これらはレーダー点雲の典型的な広がりに制約されており、標高情報を持たないレーダーのためにしばしば設計されている。 本稿では,これらの制約を克服するために,Dual Perspective Fusion Transformer (DPFT) と呼ばれる新しいカメラレーダ融合手法を提案する。 本手法では,処理された点雲の代わりに低レベルレーダデータ(レーダ立方体)を用いて可能な限り多くの情報を保存し,高度情報を用いたレーダを効果的に利用し,カメラデータとの融合を簡素化する。 その結果、DPFTはK-Radarデータセットの最先端性能を実証し、悪天候条件に対する顕著な堅牢性を示し、低い推測時間を維持した。 ソースコードはhttps://github.com/TUMFTM/DPFTで公開されている。

The perception of autonomous vehicles has to be efficient, robust, and cost-effective. However, cameras are not robust against severe weather conditions, lidar sensors are expensive, and the performance of radar-based perception is still inferior to the others. Camera-radar fusion methods have been proposed to address this issue, but these are constrained by the typical sparsity of radar point clouds and often designed for radars without elevation information. We propose a novel camera-radar fusion approach called Dual Perspective Fusion Transformer (DPFT), designed to overcome these limitations. Our method leverages lower-level radar data (the radar cube) instead of the processed point clouds to preserve as much information as possible and employs projections in both the camera and ground planes to effectively use radars with elevation information and simplify the fusion with camera data. As a result, DPFT has demonstrated state-of-the-art performance on the K-Radar dataset while showing remarkable robustness against adverse weather conditions and maintaining a low inference time. The code is made available as open-source software under https://github.com/TUMFTM/DPFT.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# GeoT: GPUの効率的なセグメント削減によるグラフニューラルネットワークのためのテンソル百科事典

GeoT: Tensor Centric Library for Graph Neural Network via Efficient Segment Reduction on GPU ( http://arxiv.org/abs/2404.03019v1 )

ライセンス: Link先を確認
Zhongming Yu, Genghan Zhang, Hanxian Huang, Xin Chen, Jishen Zhao, (参考訳) 近年,グラフニューラルネットワーク(GNN)は,グラフやポイントクラウド,メッシュなどの幾何学的データ構造の処理を大幅に強化するなど,イノベーションの急激な進展を招いている。 ドメインが進化を続けるにつれて、GNNの効率性を高めるために、一連のフレームワークとライブラリが開発されている。 グラフ中心ライブラリは過去にも成功を収めてきたが、効率的なテンソルコンパイラの出現はテンソル中心ライブラリの緊急な必要性を強調している。 しかし、GNNのセグメンテーションリダクションを実装する際に発生する固有の課題や制限のために、GNNの効率的なテンソル中心フレームワークは依然として不足している。 提案するGeoTは,GNN専用に設計された最先端のテンソル中心ライブラリである。 GeoTは、新しい設計原則を導入するだけでなく、利用可能なデザイン空間を拡大する革新的な並列アルゴリズムをデビューさせた。 重要なのは、GeoTは計算グラフ内で簡単に融合できるように設計されており、現代のテンソル中心の機械学習フレームワークやコンパイラとの互換性を保証する。 新しいパフォーマンスベンチマークを設定したGeoTは、平均演算子のスピードアップ1.80倍、エンドツーエンドのスピードアップ1.68倍を示すことで、かなり進歩した。

In recent years, Graph Neural Networks (GNNs) have ignited a surge of innovation, significantly enhancing the processing of geometric data structures such as graphs, point clouds, and meshes. As the domain continues to evolve, a series of frameworks and libraries are being developed to push GNN efficiency to new heights. While graph-centric libraries have achieved success in the past, the advent of efficient tensor compilers has highlighted the urgent need for tensor-centric libraries. Yet, efficient tensor-centric frameworks for GNNs remain scarce due to unique challenges and limitations encountered when implementing segment reduction in GNN contexts. We introduce GeoT, a cutting-edge tensor-centric library designed specifically for GNNs via efficient segment reduction. GeoT debuts innovative parallel algorithms that not only introduce new design principles but also expand the available design space. Importantly, GeoT is engineered for straightforward fusion within a computation graph, ensuring compatibility with contemporary tensor-centric machine learning frameworks and compilers. Setting a new performance benchmark, GeoT marks a considerable advancement by showcasing an average operator speedup of 1.80x and an end-to-end speedup of 1.68x.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# 超音波による電子四重対秩序の探索

Probing electron quadrupling order through ultrasound ( http://arxiv.org/abs/2404.03020v1 )

ライセンス: Link先を確認
Chris Halcrow, Ilya Shipulin, Federico Caglieris, Yongwei Li, Kunihiro Kihou, Chul-Ho Lee, Hans-Henning Klauss, Sergei Zherlitsyn, Vadim Grinenko, Egor Babaev, (参考訳) 最近の実験では、Ba$_{1-x}$K$_x$Fe$_2$As$_2$における電子四重対凝縮体である新しい物質の状態の形成が指摘されている。 状態は自然に時間反転対称性を破り、2つの臨界点の間に挟まれ、超伝導状態と通常の金属状態から分離される。 隣接する2つの臨界点により、音響効果は対称性を破る遷移に対する感度のため、そのような状態を研究するための有望なツールとなる。 電子四重対相を持つ系の音響効果の理論とBa$_{1-x}$K$_x$Fe$_2$As$_2$単結晶の新しい超音波速度測定について報告する。 電子四重対状態に関する提示された理論は、実験で観察されるものと同じ種類の特異点を与える。

Recent experiments have pointed to the formation of a new state of matter, the electron quadrupling condensate in Ba$_{1-x}$K$_x$Fe$_2$As$_2$ . The state spontaneously breaks time-reversal symmetry and is sandwiched between two critical points, separating it from the superconducting and normal metal states. The adjacent two critical points make acoustic effects a promising tool to study such states because of their sensitivity to symmetry-breaking transitions. We report a theory of the acoustic effects of systems with an electron quadrupling phase and new ultrasound velocity measurements of Ba$_{1-x}$K$_x$Fe$_2$As$_2$ single crystals. The presented theory for the electron quadrupling state gives the same type of singularities that are observed in experiment.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# 祝福か呪いか?Fake Newsにおける生成AIの影響に関する調査

Blessing or curse? A survey on the Impact of Generative AI on Fake News ( http://arxiv.org/abs/2404.03021v1 )

ライセンス: Link先を確認
Alexander Loth, Martin Kappes, Marc-Oliver Pahl, (参考訳) フェイクニュースは私たちの社会に大きな影響を与えます。 消費者、有権者、その他多くの社会団体に影響を与える。 Fake Newsは数世紀にわたって存在しているが、Generative AIはフェイクニュースを新しいレベルでもたらす。 現在、高品質で個別にターゲットとするフェイクニュースのマス作成を自動化することが可能である。 一方、Generative AIはFake Newsの検出にも役立ちます。 両方の畑は若いが、急速に発達している。 この調査は、2024年のフェイクニュースの検出と作成のためのジェネレーティブAIの研究と実用化に関する総合的な調査を提供する。 構造化文献調査(Structured Literature Survey)のアプローチに続いて,本論文は以下のトピッククラスタにおける現在の結果を合成する。 1)技術の実現。 2)フェイクニュースの作成 3)最も関連する流通チャネルとしてのソーシャルメディアのケーススタディ。 4)フェイクニュースの検出、及び 5) 今後の技術としてのディープフェイク。 この記事は、現在の課題とオープンな課題も挙げている。

Fake news significantly influence our society. They impact consumers, voters, and many other societal groups. While Fake News exist for a centuries, Generative AI brings fake news on a new level. It is now possible to automate the creation of masses of high-quality individually targeted Fake News. On the other end, Generative AI can also help detecting Fake News. Both fields are young but developing fast. This survey provides a comprehensive examination of the research and practical use of Generative AI for Fake News detection and creation in 2024. Following the Structured Literature Survey approach, the paper synthesizes current results in the following topic clusters 1) enabling technologies, 2) creation of Fake News, 3) case study social media as most relevant distribution channel, 4) detection of Fake News, and 5) deepfakes as upcoming technology. The article also identifies current challenges and open issues.
翻訳日:2024-04-05 18:44:36 公開日:2024-04-03
# BCAmirs at SemEval-2024 Task 4: Beyond Words: A Multimodal and Multilingual Exploration of Persuasion in Memes (英語)

BCAmirs at SemEval-2024 Task 4: Beyond Words: A Multimodal and Multilingual Exploration of Persuasion in Memes ( http://arxiv.org/abs/2404.03022v1 )

ライセンス: Link先を確認
Amirhossein Abaskohi, Amirhossein Dabiriaghdam, Lele Wang, Giuseppe Carenini, (参考訳) テキストと画像を組み合わせたミームは、しばしばメタファーを使って説得力のあるメッセージを伝え、世論を形成する。 そこで本研究チームはSemEval-2024 Task 4という階層型マルチラベル分類タスクに取り組み,その手法をミーム内に組み込んだ修辞的,心理的説得的手法を同定した。 この問題に対処するために,画像のモダリティギャップと追加の意味情報の影響を評価するキャプション生成手法を導入し,その結果を改良した。 本モデルでは, テキストエンコーダとしてRoBERTa, 画像エンコーダとしてCLIPを微調整するために, GPT-4 生成キャプションとミームテキストを併用した。 ベースラインは12のサブタスクすべてにおいて大きなマージンで上回っている。 特に、Subtask 2aの全言語でトップ3、Subtask 2bでトップ4にランクインし、定量的に強いパフォーマンスを示した。 中間段階の導入によって達成された改善は、視覚エンコーダに挑戦する画像の比喩的本質に起因する可能性が高い。 これは抽象的な視覚的セマンティックスエンコーディングを改善する可能性を強調している。

Memes, combining text and images, frequently use metaphors to convey persuasive messages, shaping public opinion. Motivated by this, our team engaged in SemEval-2024 Task 4, a hierarchical multi-label classification task designed to identify rhetorical and psychological persuasion techniques embedded within memes. To tackle this problem, we introduced a caption generation step to assess the modality gap and the impact of additional semantic information from images, which improved our result. Our best model utilizes GPT-4 generated captions alongside meme text to fine-tune RoBERTa as the text encoder and CLIP as the image encoder. It outperforms the baseline by a large margin in all 12 subtasks. In particular, it ranked in top-3 across all languages in Subtask 2a, and top-4 in Subtask 2b, demonstrating quantitatively strong performance. The improvement achieved by the introduced intermediate step is likely attributable to the metaphorical essence of images that challenges visual encoders. This highlights the potential for improving abstract visual semantics encoding.
翻訳日:2024-04-05 16:44:52 公開日:2024-04-03
# 青年期のメンタルヘルス・ヘルス・ナレッジ発見を支援するAIベースの会話エージェントの安全な進化に向けて

Toward Safe Evolution of Artificial Intelligence (AI) based Conversational Agents to Support Adolescent Mental and Sexual Health Knowledge Discovery ( http://arxiv.org/abs/2404.03023v1 )

ライセンス: Link先を確認
Jinkyung Park, Vivek Singh, Pamela Wisniewski, (参考訳) さまざまな人工知能(AI)ベースの会話エージェント(CAs)が最近リリースされた後、青年期には、メンタルや性的な健康トピックを含むセンシティブなトピックに関するインタラクティブな知識発見にCAsの利用が増えている。 このようなセンシティブなトピックをオンライン検索で探索することは、青年期の発達に欠かせない要素であり、CAは人間のような対話を通して、これらのトピックに関する知識発見を支援することができる。 しかし、意図しないリスクは、不適切な内容、偽情報、または精神的・身体的幸福(例えば自己害)に有害なアドバイスを受けるなど、AIベースのCAと青少年の相互作用によって記録されている。 本稿では,青年期における精神的・性的な健康知識の発見を支援するためのCAの現況と機会について論じる。 また、性的・精神的なトピックに関するCAと対話する際に、青少年の安全を確保する上での課題についても論じる。 我々は、青少年のためのAIベースのCAの安全な進化のためにガードレールを設定する方法についての談話を求めている。

Following the recent release of various Artificial Intelligence (AI) based Conversation Agents (CAs), adolescents are increasingly using CAs for interactive knowledge discovery on sensitive topics, including mental and sexual health topics. Exploring such sensitive topics through online search has been an essential part of adolescent development, and CAs can support their knowledge discovery on such topics through human-like dialogues. Yet, unintended risks have been documented with adolescents' interactions with AI-based CAs, such as being exposed to inappropriate content, false information, and/or being given advice that is detrimental to their mental and physical well-being (e.g., to self-harm). In this position paper, we discuss the current landscape and opportunities for CAs to support adolescents' mental and sexual health knowledge discovery. We also discuss some of the challenges related to ensuring the safety of adolescents when interacting with CAs regarding sexual and mental health topics. We call for a discourse on how to set guardrails for the safe evolution of AI-based CAs for adolescents.
翻訳日:2024-04-05 16:44:52 公開日:2024-04-03
# JailBreakV-28K: ジェイルブレイク攻撃に対するマルチモーダル大言語モデルのロバスト性を評価するベンチマーク

JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks ( http://arxiv.org/abs/2404.03027v1 )

ライセンス: Link先を確認
Weidi Luo, Siyuan Ma, Xiaogeng Liu, Xiaoyu Guo, Chaowei Xiao, (参考訳) MLLM(Multimodal Large Language Models)の急速な進歩に伴い、これらのモデルが悪意ある入力に対して安全でありながら、それらを人間の価値と整合させることが重要な課題となっている。 本稿では,Large Language Models (LLM) を成功させる手法が,MLLMのジェイルブレイクに等しく有効であるかどうか,重要かつ未解明の課題について検討する。 そこで本研究では,MLLMのジェイルブレイクテクニックのMLLMへの転送性を評価するための先駆的ベンチマークであるJailBreakV-28Kを紹介し,さまざまなジェイルブレイク攻撃に対するMLLMの堅牢性を評価する。 この論文でも提案されている2,000の悪意のあるクエリのデータセットを利用して、LSMの高度なジェイルブレイク攻撃を使用して、20,000のテキストベースのジェイルブレイクプロンプトを生成し、最近のMLLMのジェイルブレイク攻撃からの8,000の画像ベースのジェイルブレイクインプットに加えて、当社の包括的なデータセットには、さまざまなシナリオを対象とした28,000のテストケースが含まれています。 10個のオープンソースMLLMを評価したところ、LSMから転送された攻撃に対する攻撃成功率(ASR)が顕著に高く、テキスト処理能力に起因したMLLMの重大な脆弱性が明らかとなった。 本研究は,テキスト入力と視覚入力の両方からMLLMのアライメント脆弱性に対処するための,今後の研究の必要性を浮き彫りにするものである。

With the rapid advancements in Multimodal Large Language Models (MLLMs), securing these models against malicious inputs while aligning them with human values has emerged as a critical challenge. In this paper, we investigate an important and unexplored question of whether techniques that successfully jailbreak Large Language Models (LLMs) can be equally effective in jailbreaking MLLMs. To explore this issue, we introduce JailBreakV-28K, a pioneering benchmark designed to assess the transferability of LLM jailbreak techniques to MLLMs, thereby evaluating the robustness of MLLMs against diverse jailbreak attacks. Utilizing a dataset of 2, 000 malicious queries that is also proposed in this paper, we generate 20, 000 text-based jailbreak prompts using advanced jailbreak attacks on LLMs, alongside 8, 000 image-based jailbreak inputs from recent MLLMs jailbreak attacks, our comprehensive dataset includes 28, 000 test cases across a spectrum of adversarial scenarios. Our evaluation of 10 open-source MLLMs reveals a notably high Attack Success Rate (ASR) for attacks transferred from LLMs, highlighting a critical vulnerability in MLLMs that stems from their text-processing capabilities. Our findings underscore the urgent need for future research to address alignment vulnerabilities in MLLMs from both textual and visual inputs.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# 不完全ループ:大言語モデルにおける帰納的、帰納的、帰納的学習

An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models ( http://arxiv.org/abs/2404.03028v1 )

ライセンス: Link先を確認
Emmy Liu, Graham Neubig, Jacob Andreas, (参考訳) 現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学習することができる: 命令に従うと、対象のタスクは自然言語で明示的に記述される; 少数ショットのプロンプトでは、タスクは少数の例で暗黙的に指定される; 命令推論では、LMはインコンテキストの例で示され、予測を行う前に自然言語のタスク記述を生成するように促される。 これらの手順は、それぞれ異なる形の推論を呼び起こすと考えることができる: 命令従順は推論的推論を伴い、ほとんどショットプロンプトは帰納的推論を伴い、命令推論は帰納的推論を伴う。 これらの異なる能力はどのように関連しますか? 4つのLM(gpt と llama family)と2つの学習問題(算術関数と機械翻訳を含む)にまたがって、異なるタイプの推論の間に強い解離が生じている。 本稿は,今日の大規模LMにおいてさえ,推論の非体系的な性質を強調し,非常に異なる学習メカニズムが,一見同様のプロンプト手順によって引き起こされる可能性があることを裏付けるものである。

Modern language models (LMs) can learn to perform new tasks in different ways: in instruction following, the target task is described explicitly in natural language; in few-shot prompting, the task is specified implicitly with a small number of examples; in instruction inference, LMs are presented with in-context examples and are then prompted to generate a natural language task description before making predictions. Each of these procedures may be thought of as invoking a different form of reasoning: instruction following involves deductive reasoning, few-shot prompting involves inductive reasoning, and instruction inference involves abductive reasoning. How do these different capabilities relate? Across four LMs (from the gpt and llama families) and two learning problems (involving arithmetic functions and machine translation) we find a strong dissociation between the different types of reasoning: LMs can sometimes learn effectively from few-shot prompts even when they are unable to explain their own prediction rules; conversely, they sometimes infer useful task descriptions while completely failing to learn from human-generated descriptions of the same task. Our results highlight the non-systematic nature of reasoning even in some of today's largest LMs, and underscore the fact that very different learning mechanisms may be invoked by seemingly similar prompting procedures.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# MuLan: 言語モデルにおけるFact Mutabilityの研究

MuLan: A Study of Fact Mutability in Language Models ( http://arxiv.org/abs/2404.03036v1 )

ライセンス: Link先を確認
Constanza Fierro, Nicolas Garneau, Emanuele Bugliarello, Yova Kementchedjhieva, Anders Søgaard, (参考訳) 事実は偶発的であり、異なる状況下で真または偽である可能性がある。 そのような事態の1つは時間であり、ある期間、例えば国家の大統領やチャンピオンシップの勝者など、いくつかの事実が変化する。 信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。 MuLanは,1:1と1:Nの関係を網羅した,英語モデルによる時間の予測能力を評価するベンチマークである。 変更可能な事実は不変なものとは異なるコード化されているため、更新が容易である、という仮説を立てる。 6つのポピュラーな大言語モデルの詳細な評価では, 事実の不変性に応じて, LLMの信頼性, 表現, 更新行動の相違点を一貫して見出す。 本研究は,LLMへの時間依存的知識の注入と誘導に関する今後の研究について報告するものである。

Facts are subject to contingencies and can be true or false in different circumstances. One such contingency is time, wherein some facts mutate over a given period, e.g., the president of a country or the winner of a championship. Trustworthy language models ideally identify mutable facts as such and process them accordingly. We create MuLan, a benchmark for evaluating the ability of English language models to anticipate time-contingency, covering both 1:1 and 1:N relations. We hypothesize that mutable facts are encoded differently than immutable ones, hence being easier to update. In a detailed evaluation of six popular large language models, we consistently find differences in the LLMs' confidence, representations, and update behavior, depending on the mutability of a fact. Our findings should inform future work on the injection of and induction of time-contingent knowledge to/from LLMs.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# パラメータ化された行動空間に対するモデルに基づく強化学習

Model-based Reinforcement Learning for Parameterized Action Spaces ( http://arxiv.org/abs/2404.03037v1 )

ライセンス: Link先を確認
Renhao Zhang, Haotian Fu, Yilin Miao, George Konidaris, (参考訳) 本稿では,パラメータ化行動マルコフ決定プロセス(PAMDP)のためのモデルベース強化学習アルゴリズム - パラメータ化行動を用いた動的学習と予測制御(DLPA)を提案する。 エージェントはパラメータ化された動作条件付き力学モデルを学び、修正されたモデル予測経路積分制御で計画する。 リプシッツ連続性(英語版)のレンズを用いて達成された値の計画において、生成された軌跡と最適軌跡との差を理論的に定量化する。 いくつかの標準ベンチマークにおける実験結果から,本アルゴリズムは最先端のPAMDP法よりも優れたサンプリング効率と漸近性能が得られることが示された。

We propose a novel model-based reinforcement learning algorithm -- Dynamics Learning and predictive control with Parameterized Actions (DLPA) -- for Parameterized Action Markov Decision Processes (PAMDPs). The agent learns a parameterized-action-conditioned dynamics model and plans with a modified Model Predictive Path Integral control. We theoretically quantify the difference between the generated trajectory and the optimal trajectory during planning in terms of the value they achieved through the lens of Lipschitz Continuity. Our empirical results on several standard benchmarks show that our algorithm achieves superior sample efficiency and asymptotic performance than state-of-the-art PAMDP methods.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# AWOL:言語を用いたOut合成による分析

AWOL: Analysis WithOut synthesis using Language ( http://arxiv.org/abs/2404.03042v1 )

ライセンス: Link先を確認
Silvia Zuffi, Michael J. Black, (参考訳) 多くの古典的なパラメトリックな3次元形状モデルが存在するが、そのようなモデルで新しい形状を作るには、それらのパラメータについて専門的な知識が必要である。 例えば、手続き図を用いて特定の種類の木を作る、あるいは統計形状モデルから新しい種類の動物を想像してください。 私たちのキーとなるアイデアは、言語を活用して既存のモデルを制御し、新しい形状を作り出すことです。 これは、視覚言語モデルの潜在空間と3Dモデルのパラメータ空間の間のマッピングを学習することを含み、小さな形状とテキストペアを用いて行う。 私たちの仮説は、言語からパラメータへのマッピングによって、トレーニング中に見たことのないオブジェクトのパラメータを生成することができる、というものです。 言語とパラメータのマッピングが十分に滑らかであれば、言語の補間や一般化は、新しい3次元形状に適切に翻訳されるべきである。 我々は2種類のパラメトリック形状モデル(四重奏木とアーボリアル木)を用いてアプローチを検証した。 学習した四肢の統計形状モデルを用いて、トレーニング中に存在しない新しい動物をテキストで生成できることを示す。 特に,3次元犬の最先端形状推定について述べる。 この研究は、3D木を生成するための最初の言語駆動の手法でもある。 最後に、CLIP潜伏空間にイメージを埋め込むことで、画像から直接動物や木を生成することができる。

Many classical parametric 3D shape models exist, but creating novel shapes with such models requires expert knowledge of their parameters. For example, imagine creating a specific type of tree using procedural graphics or a new kind of animal from a statistical shape model. Our key idea is to leverage language to control such existing models to produce novel shapes. This involves learning a mapping between the latent space of a vision-language model and the parameter space of the 3D model, which we do using a small set of shape and text pairs. Our hypothesis is that mapping from language to parameters allows us to generate parameters for objects that were never seen during training. If the mapping between language and parameters is sufficiently smooth, then interpolation or generalization in language should translate appropriately into novel 3D shapes. We test our approach with two very different types of parametric shape models (quadrupeds and arboreal trees). We use a learned statistical shape model of quadrupeds and show that we can use text to generate new animals not present during training. In particular, we demonstrate state-of-the-art shape estimation of 3D dogs. This work also constitutes the first language-driven method for generating 3D trees. Finally, embedding images in the CLIP latent space enables us to generate animals and trees directly from images.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# 厚線形状における物体の位置と幅の計算のための線形アンコールガウス混合モデル

Linear Anchored Gaussian Mixture Model for Location and Width Computation of Objects in Thick Line Shape ( http://arxiv.org/abs/2404.03043v1 )

ライセンス: Link先を確認
Nafaa Nacereddine, Djemel Ziou, Aicha Baya Goumeidane, (参考訳) 線形物体の中心線を正確に検出することは、道路交通におけるX線イメージング、リモートセンシング、レーンマーキング検出といった多くのセンシティブな現実世界のアプリケーションにおいて難しいトピックである。 Hough と Radon 変換を用いたモデルベースアプローチはよく用いられるが、厚みのある線検出には推奨されない。 本稿では,画像の灰色レベルの3次元表現を統計的分布の有限混合モデルとして考慮し,画像中の線形構造を検出することを目的とする。 後者は、線形構造の厚さを記述するスケール値 {\sigma} と、線形構造の中心位置を記述する方向角 {\theta} と半径 \r{ho} によってパラメータ化されるライン方程式によってパラメータ化することができる。 予測最大化 (EM) アルゴリズムを混合モデルパラメータ推定に用いて, 確率関数計算のバックグラウンドサブトラクションを用いた新しいパラダイムを提案する。 EMアルゴリズムでは、第1のパラメータ初期化スキームは、第1のパラメータベクトルの第1成分のランダムな選択に基づいており、第2のパラメータ初期化スキームは混合モデル成分数の同時計算による画像ヘシアンに基づいている。 実世界の画像と合成画像のぼかしと加法雑音による劣化実験により提案手法の優れた性能が示され,不規則な画像背景とぼかしとノイズの存在にもかかわらず,背景部分抽出とHessian-based {\theta}初期化を用いたアルゴリズムにより線形構造検出の精度が著しく向上した。

An accurate detection of the centerlines of linear objects is a challenging topic in many sensitive real-world applications such X-ray imaging, remote sensing and lane marking detection in road traffic. Model-based approaches using Hough and Radon transforms are often used but, are not recommended for thick line detection, whereas approaches based on image derivatives need further step-by-step processing, making their efficiency dependent on each step outcomes. In this paper, we aim to detect linear structures found in images by considering the 3D representation of the image gray levels as a finite mixture model of statistical distribution. The latter, which we named linear anchored Gaussian distribution could be parametrized by a scale value {\sigma} describing the linear structure thickness and a line equation, parametrized, in turn, by a radius \r{ho} and an orientation angle {\theta}, describing the linear structure centerline location. Expectation-Maximization (EM) algorithm is used for the mixture model parameter estimation, where a new paradigm, using the background subtraction for the likelihood function computation, is proposed. For the EM algorithm, two {\theta} parameter initialization schemes are used: the first one is based on a random choice of the first component of {\theta} vector, whereas the second is based on the image Hessian with a simultaneous computation of the mixture model components number. Experiments on real world images and synthetic images corrupted by blur and additive noise show the good performance of the proposed methods, where the algorithm using background subtraction and Hessian-based {\theta} initialization provides an outstanding accuracy of the linear structure detection despite irregular image background and presence of blur and noise.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# 人工知能オントロジー:LLMによるAI概念階層の構築

The Artificial Intelligence Ontology: LLM-assisted construction of AI concept hierarchies ( http://arxiv.org/abs/2404.03044v1 )

ライセンス: Link先を確認
Marcin P. Joachimiak, Mark A. Miller, J. Harry Caufield, Ryan Ly, Nomi L. Harris, Andrew Tritt, Christopher J. Mungall, Kristofer E. Bouchard, (参考訳) 人工知能オントロジー(AIO)は、人工知能の概念、方法論、それらの相互関係の体系化である。 手作業によるキュレーションを通じて開発され、大規模言語モデル(LLM)のさらなる支援により、AI技術の技術的側面と倫理的側面を包含する包括的なフレームワークを提供することによって、AIの急速に進化する状況に対処することを目的としている。 AIドメイン内の標準化された用語と概念を求めるAI研究者、開発者、教育者が含まれる。 ネットワーク、レイヤ、関数、LLM、前処理、バイアスの6つのトップレベルブランチで構成されており、それぞれがAIメソッドのモジュール構成をサポートし、ディープラーニングアーキテクチャとAIの倫理的考察の深い理解を促進するように設計されている。 AIOの開発では、オントロジー開発キット(ODK)を開発とメンテナンスに利用し、コンテンツはAI駆動のキュレーションサポートを通じて動的に更新された。 このアプローチは、AIの急激な進歩の中でオントロジーの関連性を保証するだけでなく、新しいAI概念と方法論の統合を簡素化することによって、研究者、開発者、教育者に対するその有用性を著しく向上させる。 オントロジーの実用性は、AI研究出版物のカタログにおけるAIメソッドデータのアノテーションとBioPortalオントロジーリソースへの統合を通じて実証され、学際的な研究の可能性を強調している。 AIOオントロジーはオープンソースで、GitHub(https://github.com/berkeleybop/artificial-intelligence-ontology)とBioPortal(https://bioportal.bioontology.org/ontologies/AIO)で入手できる。

The Artificial Intelligence Ontology (AIO) is a systematization of artificial intelligence (AI) concepts, methodologies, and their interrelations. Developed via manual curation, with the additional assistance of large language models (LLMs), AIO aims to address the rapidly evolving landscape of AI by providing a comprehensive framework that encompasses both technical and ethical aspects of AI technologies. The primary audience for AIO includes AI researchers, developers, and educators seeking standardized terminology and concepts within the AI domain. The ontology is structured around six top-level branches: Networks, Layers, Functions, LLMs, Preprocessing, and Bias, each designed to support the modular composition of AI methods and facilitate a deeper understanding of deep learning architectures and ethical considerations in AI. AIO's development utilized the Ontology Development Kit (ODK) for its creation and maintenance, with its content being dynamically updated through AI-driven curation support. This approach not only ensures the ontology's relevance amidst the fast-paced advancements in AI but also significantly enhances its utility for researchers, developers, and educators by simplifying the integration of new AI concepts and methodologies. The ontology's utility is demonstrated through the annotation of AI methods data in a catalog of AI research publications and the integration into the BioPortal ontology resource, highlighting its potential for cross-disciplinary research. The AIO ontology is open source and is available on GitHub (https://github.com/berkeleybop/artificial-intelligence-ontology) and BioPortal (https://bioportal.bioontology.org/ontologies/AIO).
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# 相互運用型ソーシャルネットワークのための分散型モデレーション--フレロマとフェリバースの対話に基づくアプローチ

Decentralised Moderation for Interoperable Social Networks: A Conversation-based Approach for Pleroma and the Fediverse ( http://arxiv.org/abs/2404.03048v1 )

ライセンス: Link先を確認
Vibhor Agarwal, Aravindh Raman, Nishanth Sastry, Ahmed M. Abdelmoniem, Gareth Tyson, Ignacio Castro, (参考訳) 近年の分散化と相互運用可能なソーシャルネットワーク(例えば"fediverse")の発展は、コンテンツモデレーターにとって新たな課題を生み出している。 これは、受信サーバが全く異なるモデレーションポリシーを持っている場合でも、あるサーバで生成された何百万ものポストが、簡単に別のサーバに"拡散"できるためである。 明らかな解決策は、モデレーションツールを活用して、有害な音声に関連するようなモデレーションポリシーに反するポストを自動的にタグ付け(およびフィルタリング)することです。 最近の研究は、投稿の会話の文脈を利用して、この自動タグ付けを改善する。 これは、完全な会話を含む大きなトレーニングセットを持つ環境において、特に可能性があることを示している。 しかしこれは、単一の会話が複数のサーバにまたがって断片化される可能性があるため、分散化されたコンテキストにおける課題を生み出します。 したがって、各サーバは会話全体の部分的なビューしか持たない。 この問題に対処するため,我々は,分散化された会話対応コンテンツモデレーション手法を提案する。 当社のアプローチでは,各サーバ上でローカルにトレーニングされたグラフ深層学習モデル(GraphNLI)を採用している。 このモデルは、ローカルデータを利用して、ランダムウォークで捉えたポスト情報と会話情報を組み合わせて、毒性を検出するモデルを訓練する。 我々は,200万の会話を含む分散型で相互運用可能なマイクロブログネットワークであるPleromaのデータを用いて,我々のアプローチを評価する。 本モデルでは, 局所的なポスト情報(0.8837 macro-F1)を用いて, 大規模インスタンスの毒性を効果的に検出する。 当社のアプローチは,PleromaやMastodonといった分散型・相互運用可能なソーシャルネットワークにおいて,モデレーションを改善するためのかなりの範囲を持っている。

The recent development of decentralised and interoperable social networks (such as the "fediverse") creates new challenges for content moderators. This is because millions of posts generated on one server can easily "spread" to another, even if the recipient server has very different moderation policies. An obvious solution would be to leverage moderation tools to automatically tag (and filter) posts that contravene moderation policies, e.g. related to toxic speech. Recent work has exploited the conversational context of a post to improve this automatic tagging, e.g. using the replies to a post to help classify if it contains toxic speech. This has shown particular potential in environments with large training sets that contain complete conversations. This, however, creates challenges in a decentralised context, as a single conversation may be fragmented across multiple servers. Thus, each server only has a partial view of an entire conversation because conversations are often federated across servers in a non-synchronized fashion. To address this, we propose a decentralised conversation-aware content moderation approach suitable for the fediverse. Our approach employs a graph deep learning model (GraphNLI) trained locally on each server. The model exploits local data to train a model that combines post and conversational information captured through random walks to detect toxicity. We evaluate our approach with data from Pleroma, a major decentralised and interoperable micro-blogging network containing 2 million conversations. Our model effectively detects toxicity on larger instances, exclusively trained using their local post information (0.8837 macro-F1). Our approach has considerable scope to improve moderation in decentralised and interoperable social networks such as Pleroma or Mastodon.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# 言語・環境・ロボットナビゲーション

Language, Environment, and Robotic Navigation ( http://arxiv.org/abs/2404.03049v1 )

ライセンス: Link先を確認
Johnathan E. Avery, (参考訳) 本稿では,ロボットナビゲーションシステムにおける言語入力の統合について検討し,シンボル相互依存仮説を基礎として,記号的認知と具体的認知の分離を橋渡しする。 言語とセマンティクスをニューラルネットワーク(NN)とSLAMアプローチに組み込んだ以前の作業について検討し、これらの統合がいかに分野を前進させたかを強調した。 本稿では,抽象的なシンボル操作と感覚運動基盤の対比により,抽象的なコミュニケーションシステムとして,そして知覚経験の基盤的表現として機能する統一的な枠組みを提案する。 本稿では,分散意味論の認知モデルとその自律エージェントへの応用について概観し,言語統合システムの変容の可能性について述べる。

This paper explores the integration of linguistic inputs within robotic navigation systems, drawing upon the symbol interdependency hypothesis to bridge the divide between symbolic and embodied cognition. It examines previous work incorporating language and semantics into Neural Network (NN) and Simultaneous Localization and Mapping (SLAM) approaches, highlighting how these integrations have advanced the field. By contrasting abstract symbol manipulation with sensory-motor grounding, we propose a unified framework where language functions both as an abstract communicative system and as a grounded representation of perceptual experiences. Our review of cognitive models of distributional semantics and their application to autonomous agents underscores the transformative potential of language-integrated systems.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# ランダムフーリエ機能のためのANOVAブースティング

ANOVA-boosting for Random Fourier Features ( http://arxiv.org/abs/2404.03050v1 )

ライセンス: Link先を確認
Daniel Potts, Laura Weidensager, (参考訳) 本研究では,高次元関数を近似するランダムなフーリエ特徴モデルを構築するための2つのアルゴリズムを提案する。 これらの手法は、分散(ANOVA)分解の古典的および一般化された解析を利用して、変数間の相互作用がほとんどない低次関数を学習する。 我々のアルゴリズムは、重要な入力変数と変数の相互作用のインデックスセットを確実に見つけることができる。 さらに、既存のランダムなフーリエ特徴モデルをANOVA設定に一般化し、異なる順序の項を使うことができる。 我々のアルゴリズムは解釈可能性の利点があり、従属的な入力変数であっても、全ての入力変数の影響が学習モデルで知られている。 我々は,このアルゴリズムが感度解析に有効であるという理論的および数値的な結果を与える。 ANOVAブースティングステップは、既存のメソッドの近似誤差を大幅に削減する。

We propose two algorithms for boosting random Fourier feature models for approximating high-dimensional functions. These methods utilize the classical and generalized analysis of variance (ANOVA) decomposition to learn low-order functions, where there are few interactions between the variables. Our algorithms are able to find an index set of important input variables and variable interactions reliably. Furthermore, we generalize already existing random Fourier feature models to an ANOVA setting, where terms of different order can be used. Our algorithms have the advantage of interpretability, meaning that the influence of every input variable is known in the learned model, even for dependent input variables. We give theoretical as well as numerical results that our algorithms perform well for sensitivity analysis. The ANOVA-boosting step reduces the approximation error of existing methods significantly.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# GPT-DETOX:テキストデトキシ化のための文脈学習型パラフレーズ

GPT-DETOX: An In-Context Learning-Based Paraphraser for Text Detoxification ( http://arxiv.org/abs/2404.03052v1 )

ライセンス: Link先を確認
Ali Pesaranghader, Nikhil Verma, Manasa Bharadwaj, (参考訳) 有害で攻撃的なコミュニケーションやコンテンツは、ソーシャル・ボンディングやソーシャルメディア・プラットフォーム上のユーザーの精神状態に有害である。 テキストの解毒は、自然言語処理(NLP)において重要な課題であり、そのゴールは、その内容を保持しながら、テキストから誇張性と毒性を取り除くことである。 教師なし学習は、テキストデトックス化ソリューションを設計するための一般的なアプローチである。 しかし、これらの手法は微調整を必要とし、計算オーバーヘッドを発生させる。 本稿では,GPT-3.5 Turbo を用いたテキストデトキシフィケーションのためのアクシデントベースのインコンテキスト学習のためのフレームワークとして GPT-DETOX を提案する。 ゼロショットと少数ショットのプロンプト技術を用いて、入力文のデトックス化を行う。 本稿では,単語マッチング例選択(WMES)と文脈マッチング例選択(CMES)の2つの手法を提案する。 また,アンサンブルをゼロショットと複数ショット設定によるベースプロンプトによって形作る,コンテキスト内学習(EICL)も考慮する。 ベンチマークデトキシフィケーションデータセットとしてParaDetoxとAPPDIAを使用している。 実験の結果,ゼロショットソリューションは有望な性能を達成し,最も優れた数ショット設定はParaDetoxの最先端モデルよりも優れ,APPDIAで同等の結果を示すことがわかった。 EICLソリューションは、両方のデータセットに対して、少なくとも10%の改善を加えて、最高のパフォーマンスを得る。

Harmful and offensive communication or content is detrimental to social bonding and the mental state of users on social media platforms. Text detoxification is a crucial task in natural language processing (NLP), where the goal is removing profanity and toxicity from text while preserving its content. Supervised and unsupervised learning are common approaches for designing text detoxification solutions. However, these methods necessitate fine-tuning, leading to computational overhead. In this paper, we propose GPT-DETOX as a framework for prompt-based in-context learning for text detoxification using GPT-3.5 Turbo. We utilize zero-shot and few-shot prompting techniques for detoxifying input sentences. To generate few-shot prompts, we propose two methods: word-matching example selection (WMES) and context-matching example selection (CMES). We additionally take into account ensemble in-context learning (EICL) where the ensemble is shaped by base prompts from zero-shot and all few-shot settings. We use ParaDetox and APPDIA as benchmark detoxification datasets. Our experimental results show that the zero-shot solution achieves promising performance, while our best few-shot setting outperforms the state-of-the-art models on ParaDetox and shows comparable results on APPDIA. Our EICL solutions obtain the greatest performance, adding at least 10% improvement, against both datasets.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# 汎用行動エージェントのためのデータ駆動ゴール認識設計

Data-Driven Goal Recognition Design for General Behavioral Agents ( http://arxiv.org/abs/2404.03054v1 )

ライセンス: Link先を確認
Robert Kasumba, Guanghui Yu, Chien-Ju Ho, Sarah Keren, William Yeoh, (参考訳) 目標認識設計は、意思決定環境への限定的な修正を目標とし、それらの環境内で行動するエージェントの目標の推測を容易にすることを目的としている。 目標認識設計において様々な研究努力がなされてきたが、既存のアプローチは計算的に要求されており、エージェントが意思決定において(ほぼ)最適であると仮定することが多い。 これらの制約に対処するために、汎用的な行動モデルを持つエージェントを考慮に入れた、ゴール認識設計のためのデータ駆動型アプローチを導入する。 既存の文献に従えば、意思決定環境においてエージェントの目標を推測するのが困難であることを示す尺度として、最悪のケースの区別($\textit{wcd}$)を用いる。 私たちのアプローチは、与えられた環境とエージェントの振る舞いモデルに対して$\textit{wcd}$を予測するために、機械学習モデルをトレーニングすることから始まります。 そこで我々は,目標認識の強化のための意思決定環境を最適化するために,様々な制約を満たす勾配に基づく最適化フレームワークを提案する。 より広範なシミュレーションを通じて、従来のセットアップでは$\textit{wcd}$を削減し、ランタイム効率を向上し、柔軟性のある予算制約、より複雑な環境、最適なエージェントの振る舞いなど、これまで文献でカバーされていなかったシナリオにも適応できることを実証した。 さらに,本手法が実世界の人的意思決定者から効率的に目標を認識できる環境を創出できることを確認した。

Goal recognition design aims to make limited modifications to decision-making environments with the goal of making it easier to infer the goals of agents acting within those environments. Although various research efforts have been made in goal recognition design, existing approaches are computationally demanding and often assume that agents are (near-)optimal in their decision-making. To address these limitations, we introduce a data-driven approach to goal recognition design that can account for agents with general behavioral models. Following existing literature, we use worst-case distinctiveness ($\textit{wcd}$) as a measure of the difficulty in inferring the goal of an agent in a decision-making environment. Our approach begins by training a machine learning model to predict the $\textit{wcd}$ for a given environment and the agent behavior model. We then propose a gradient-based optimization framework that accommodates various constraints to optimize decision-making environments for enhanced goal recognition. Through extensive simulations, we demonstrate that our approach outperforms existing methods in reducing $\textit{wcd}$ and enhancing runtime efficiency in conventional setups, and it also adapts to scenarios not previously covered in the literature, such as those involving flexible budget constraints, more complex environments, and suboptimal agent behavior. Moreover, we have conducted human-subject experiments which confirm that our method can create environments that facilitate efficient goal recognition from real-world human decision-makers.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# 物質波と時計は均一な重力場を観測しない

Matter waves and clocks do not observe uniform gravitational fields ( http://arxiv.org/abs/2404.03057v1 )

ライセンス: Link先を確認
Peter Asenbaum, Chris Overstreet, Mark A. Kasevich, (参考訳) 均一な重力場において、古典的なテスト対象は普遍的に崩壊する。 どんな参照オブジェクトやオブザーバも、同じ普遍的な方法で落ちます。 したがって、一様重力場は観測者と古典的なテスト対象の間の力学を生成できない。 しかし、一様重力場が物質波や時計に与える影響は、研究や教育を通じて矛盾している。 そこで本研究では,一様重力場における物質波干渉計とクロック赤方偏移実験の挙動について述べる。 同値原理の一貫した定式化が示すように、一様重力場はこれらの系に観測可能な影響を持たず、物理的に重力の欠如と等価である。

In a uniform gravitational field, classical test objects fall universally. Any reference object or observer will fall in the same universal manner. Therefore, a uniform gravitational field cannot create dynamics between observers and classical test objects. The influence of a uniform gravitational field on matter waves and clocks, however, is described inconsistently throughout research and education. To illustrate, we discuss the behavior of a matter-wave interferometer and a clock redshift experiment in a uniform gravitational field. As a consistent formulation of the equivalence principle implies, a uniform gravitational field has no observable influence on these systems and is physically equivalent to the absence of gravity.
翻訳日:2024-04-05 16:44:51 公開日:2024-04-03
# ファジィルールベースからの言語記述の自動抽出

Automatic Extraction of Linguistic Description from Fuzzy Rule Base ( http://arxiv.org/abs/2404.03058v1 )

ライセンス: Link先を確認
Krzysztof Siminski, Konrad Wnuk, (参考訳) 神経ファジィシステムは説明可能な人工知能(XAI)の技法である。 彼らはファジィルールの集合として知識モデルを精巧に表現した。 ファジィ集合はファジィ規則の重要な構成要素である。 言語用語をモデル化するのに使用される。 本稿では,自然言語におけるファジィ規則の自動抽出について述べる。 完全な実装はパブリックリポジトリから無償で利用できる。

Neuro-fuzzy systems are a technique of explainable artificial intelligence (XAI). They elaborate knowledge models as a set of fuzzy rules. Fuzzy sets are crucial components of fuzzy rules. They are used to model linguistic terms. In this paper, we present an automatic extraction of fuzzy rules in the natural English language. Full implementation is available free from a public repository.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# WebSPL: Webアプリケーションのためのソフトウェア製品ライン

WebSPL: A Software Product Line for Web Applications ( http://arxiv.org/abs/2404.03061v1 )

ライセンス: Link先を確認
Maicon Azevedo da Luz, Kleinner Farias, (参考訳) Webアプリケーションを開発する企業は、低コストで生産時間もずっと少ない高品質の製品に対する需要が高まっている。 しかし、そのようなアプリケーションの開発は、機能(または機能)とモジュールの再利用の促進が困難であり、Webフレームワークの不均一性のため、時間を要する、エラーを起こしやすいタスクであると考えられています。 今日では、企業は常に変化する要件に直面しなければならない。 ソフトウェア製品ラインは、ソフトウェア資産の中核からアプリケーションのコレクションを作成することで、この課題に直面する代替手段として登場した。 その可能性にもかかわらず、現在の文献はWebアプリケーション向けの製品ラインを提案する作業が不足している。 そこで本論文では,Webアプリケーション用の製品ラインであるWebSPLについて述べる。 提案する WebSPL は,従来のアプローチに基づく Web アプリケーションと比較して評価した。 Webアプリケーション2つのデータ収集を可能にするケーススタディ。 2つのWebアプリケーションが開発され、1つはWebSPLをサポートせずに開発されました。 複雑さ、サイズ、重複ライン、技術的負債など、ソフトウェア設計メトリクスを使用したこれらの2つのアプリケーションを比較しました。 最初の結果は奨励され、Webアプリケーションの開発をサポートするためにWebSPLを使用する可能性を示しました。

Companies developing Web applications have faced an increasing demand for high-quality products with low cost and production time ever smaller. However, developing such applications is still considered a time-consuming and error-prone task, mainly due to the difficulty of promoting the reuse of features (or functionalities) and modules, and the heterogeneity of Web frameworks. Nowadays, companies must face ever-changing requirements. Software product lines emerged as an alternative to face this challenge by creating a collection of applications from a core of software assets. Despite the potential, the current literature lacks works that propose a product line for Web applications. This paper, therefore, presents WebSPL, a product line for Web applications that supports the main features found in Wed applications in real-world settings. The proposed WebSPL was evaluated by comparing it with a Web application developed based on a traditional approach. A case study that involves the development of two Web applications enabled data collection. Two Web applications were developed -- one with and another without the support of the proposed WebSPL. We compared these two applications using software design metrics, including complexity, size, duplicate lines, and technical debt. The initial results were encouraging and showed the potential for using WebSPL to support the development of Web applications.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# 拡張現実遠隔操作システムによるデモによる自律型6-DoFロボットのグラッピング

Self-supervised 6-DoF Robot Grasping by Demonstration via Augmented Reality Teleoperation System ( http://arxiv.org/abs/2404.03067v1 )

ライセンス: Link先を確認
Xiwen Dengxiong, Xueting Wang, Shi Bai, Yunbo Zhang, (参考訳) 既存の6-DoFロボットのグルーピングソリューションの多くは、グルーピングポーズの強い監督に依存して、満足なパフォーマンスを確保している。 そこで本研究では,拡張現実(AR)遠隔操作システムを用いて,人間の実演を効率よく学習し,ポーズアノテーションをつかむことなく6-DoFグリップポーズを提供する,自己教師型6-DoFグリップポーズ検出フレームワークを提案する。 具体的には、人間の実演をAR環境から収集し、その実演から把握戦略を対照的に学習する。 実世界の実験において,提案システムは,3つの実演で未知の物体を把握できることを十分に把握し,学習する。

Most existing 6-DoF robot grasping solutions depend on strong supervision on grasp pose to ensure satisfactory performance, which could be laborious and impractical when the robot works in some restricted area. To this end, we propose a self-supervised 6-DoF grasp pose detection framework via an Augmented Reality (AR) teleoperation system that can efficiently learn human demonstrations and provide 6-DoF grasp poses without grasp pose annotations. Specifically, the system collects the human demonstration from the AR environment and contrastively learns the grasping strategy from the demonstration. For the real-world experiment, the proposed system leads to satisfactory grasping abilities and learning to grasp unknown objects within three demonstrations.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# 室内の3Dシーンを再現した人工血管の裏側

Behind the Veil: Enhanced Indoor 3D Scene Reconstruction with Occluded Surfaces Completion ( http://arxiv.org/abs/2404.03070v1 )

ライセンス: Link先を確認
Su Sun, Cheng Zhao, Yuliang Guo, Ruoyu Wang, Xinyu Huang, Yingjie Victor Chen, Liu Ren, (参考訳) 本稿では,室内の3次元再構成手法について述べる。 従来のSOTA(State-of-the-art)手法は、シーン内の可視領域の再構築にのみ焦点を合わせ、例えば、家具、壁、床の間の接触面などによって見えない領域を無視する。 本手法は,閉鎖されたシーン表面を仕上げる作業に取り組み,完全な3次元シーンメッシュを実現する。 本手法の中核となる考え方は,様々な完全シーンから3次元幾何学を学習し,未確認シーンの隠蔽幾何学を単に深度測定から推定することである。 我々は,2次元デコーダアーキテクチャ(Geo-Decoder)と3次元インパインター(Inpainter)を組み合わせた大きめの階層オクツリー表現を設計する。 細かなレベルの詳細な表現を持つジオデコーダは、各シーンに最適化され、視界を再構築する。 粗いレベルで抽象表現された3Dインパインターは、様々なシーンを用いてオフラインでトレーニングされ、閉塞面が完成する。 その結果、Geo-Decoderは個々のシーンに特化しているが、3D Inpainterは一般的に異なるシーンにまたがって適用できる。 提案手法を3次元完全室シーン(3D-CRS)とiTHORデータセット(3D-CRS)で評価し,3次元再構成の完全性の観点から,SOTA法を16.8%,24.2%向上させた。 各シーンの完全な3Dメッシュを含む3D-CRSデータセットは、プロジェクトのWebページで提供されている。

In this paper, we present a novel indoor 3D reconstruction method with occluded surface completion, given a sequence of depth readings. Prior state-of-the-art (SOTA) methods only focus on the reconstruction of the visible areas in a scene, neglecting the invisible areas due to the occlusions, e.g., the contact surface between furniture, occluded wall and floor. Our method tackles the task of completing the occluded scene surfaces, resulting in a complete 3D scene mesh. The core idea of our method is learning 3D geometry prior from various complete scenes to infer the occluded geometry of an unseen scene from solely depth measurements. We design a coarse-fine hierarchical octree representation coupled with a dual-decoder architecture, i.e., Geo-decoder and 3D Inpainter, which jointly reconstructs the complete 3D scene geometry. The Geo-decoder with detailed representation at fine levels is optimized online for each scene to reconstruct visible surfaces. The 3D Inpainter with abstract representation at coarse levels is trained offline using various scenes to complete occluded surfaces. As a result, while the Geo-decoder is specialized for an individual scene, the 3D Inpainter can be generally applied across different scenes. We evaluate the proposed method on the 3D Completed Room Scene (3D-CRS) and iTHOR datasets, significantly outperforming the SOTA methods by a gain of 16.8% and 24.2% in terms of the completeness of 3D reconstruction. 3D-CRS dataset including a complete 3D mesh of each scene is provided at project webpage.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# メタバースにおけるヒューマンモビリティ

Human Mobility in the Metaverse ( http://arxiv.org/abs/2404.03071v1 )

ライセンス: Link先を確認
Kishore Vasan, Marton Karsai, Albert-Laszlo Barabasi, (参考訳) メタバースは、人間同士の対話の仕方や、デジタルや物理的な環境の変化を約束する。 メタバースにおける地理的境界の欠如と旅行コストは、物理的な世界における人間の移動性を支配する基本的な法則が適用されるかどうかを問うことを促す。 我々は、NFT購入から抽出したネットワークモビリティとともに、アバターの動きに関するデータを収集した。 通勤コストの欠如にもかかわらず、新しい場所を探索する個人は時間の経過とともに減少し、移動はメタバースのごく一部に制限されることがわかった。 また, 土地価格と来訪の相関関係の欠如が, 物理的世界を特徴付けるパターンから逸脱していることも見いだした。 最後に、メタモビリティを特徴付けるスケーリング法則を特定し、メタバースモビリティの定量的パターンを説明するために、既存のモデルに優先的な選択を加える必要があることを示す。 我々のメタモビリティネットワークの特徴を予測する能力は、人間の移動を規定する法則が、空間の性質や移動コストではなく、人間の動態の基本パターンに根ざしていることを示唆している。

The metaverse promises a shift in the way humans interact with each other, and with their digital and physical environments. The lack of geographical boundaries and travel costs in the metaverse prompts us to ask if the fundamental laws that govern human mobility in the physical world apply. We collected data on avatar movements, along with their network mobility extracted from NFT purchases. We find that despite the absence of commuting costs, an individuals inclination to explore new locations diminishes over time, limiting movement to a small fraction of the metaverse. We also find a lack of correlation between land prices and visitation, a deviation from the patterns characterizing the physical world. Finally, we identify the scaling laws that characterize meta mobility and show that we need to add preferential selection to the existing models to explain quantitative patterns of metaverse mobility. Our ability to predict the characteristics of the emerging meta mobility network implies that the laws governing human mobility are rooted in fundamental patterns of human dynamics, rather than the nature of space and cost of movement.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# Mai Ho'omāuna i ka 'Ai:Language Models Improving Automatic Speech Recognition in Hawaiian

Mai Ho'omāuna i ka 'Ai: Language Models Improve Automatic Speech Recognition in Hawaiian ( http://arxiv.org/abs/2404.03073v1 )

ライセンス: Link先を確認
Kaavya Chaparala, Guido Zarrella, Bruce Torres Fischer, Larry Kimura, Oiwi Parker Jones, (参考訳) 本稿では,多数の独立したテキストデータをASR基盤モデルであるWhisperに組み込むことで,低リソース言語であるハワイ語における音声認識(ASR)の改善を課題とする。 これを実現するために,ハワイ語テキストの約1.5万語で外部言語モデル(LM)を訓練する。 次に、LMを用いてWhisperを再スコアし、ハワイのラベル付きデータの手作業によるテストセット上でワードエラー率(WER)を計算する。 ベースラインとして、外部LMなしでWhisperを使用します。 実験の結果,ハワイのLMでASR出力を再現した場合,WERは小さいが顕著な改善が見られた。 結果は、表現不足言語のためのASRシステムの開発において、利用可能なすべてのデータを活用することを支援する。

In this paper we address the challenge of improving Automatic Speech Recognition (ASR) for a low-resource language, Hawaiian, by incorporating large amounts of independent text data into an ASR foundation model, Whisper. To do this, we train an external language model (LM) on ~1.5M words of Hawaiian text. We then use the LM to rescore Whisper and compute word error rates (WERs) on a manually curated test set of labeled Hawaiian data. As a baseline, we use Whisper without an external LM. Experimental results reveal a small but significant improvement in WER when ASR outputs are rescored with a Hawaiian LM. The results support leveraging all available data in the development of ASR systems for underrepresented languages.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# 大規模言語モデルを用いた多分野材料科学における機能材料知識グラフの構築

Construction of Functional Materials Knowledge Graph in Multidisciplinary Materials Science via Large Language Model ( http://arxiv.org/abs/2404.03080v1 )

ライセンス: Link先を確認
Yanpeng Ye, Jie Ren, Shaozhou Wang, Yuwei Wan, Imran Razzak, Tong Xie, Wenjie Zhang, (参考訳) 材料科学と人工知能の融合により、幅広い科学文献から得られた新しい素材を収集、分析、生成する新たな機会が開かれた。 潜在的な利点にもかかわらず、手動のアノテーション、正確な抽出、トレーサビリティの問題といった永続的な課題が残っている。 大規模な言語モデルは、これらの障害に対処するための有望な解決策として現れてきた。 本稿では,多分野の材料知識グラフであるFMKGについて紹介する。 先進的な自然言語処理技術の利用により、過去10年間に発行されたすべての高品質な研究論文からなるコーパスから何百万ものエンティティを抽出し、3つのコーパスを形成する。 非構造化情報は、名前、フォーミュラ、頭字語、構造/位相、プロパティ、記述子、合成、評価方法、アプリケーション、ドメインを含む9つの異なるラベルにまとめ、紙のデジタルオブジェクト識別子をシームレスに統合する。 機能性材料のための最新の構造化データベースとして、FMKGは機能性材料の開発を迅速化するための強力な触媒として機能し、フルペーパーテキストを用いたより包括的な材料知識グラフを構築するための基金として機能する。 さらに,本研究は,複雑な材料システムだけでなく,他の専門分野にも適用可能な,実践的なテキストマイニングベースの知識管理システムの基盤となっている。

The convergence of materials science and artificial intelligence has unlocked new opportunities for gathering, analyzing, and generating novel materials sourced from extensive scientific literature. Despite the potential benefits, persistent challenges such as manual annotation, precise extraction, and traceability issues remain. Large language models have emerged as promising solutions to address these obstacles. This paper introduces Functional Materials Knowledge Graph (FMKG), a multidisciplinary materials science knowledge graph. Through the utilization of advanced natural language processing techniques, extracting millions of entities to form triples from a corpus comprising all high-quality research papers published in the last decade. It organizes unstructured information into nine distinct labels, covering Name, Formula, Acronym, Structure/Phase, Properties, Descriptor, Synthesis, Characterization Method, Application, and Domain, seamlessly integrating papers' Digital Object Identifiers. As the latest structured database for functional materials, FMKG acts as a powerful catalyst for expediting the development of functional materials and a fundation for building a more comprehensive material knowledge graph using full paper text. Furthermore, our research lays the groundwork for practical text-mining-based knowledge management systems, not only in intricate materials systems but also applicable to other specialized domains.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# グラフニューラルネットワークのための1次PDES:アドベクションとバーガー方程式モデル

First-order PDES for Graph Neural Networks: Advection And Burgers Equation Models ( http://arxiv.org/abs/2404.03081v1 )

ライセンス: Link先を確認
Yifan Qu, Oliver Krzysik, Hans De Sterck, Omer Ege Kara, (参考訳) グラフニューラルネットワーク(GNN)は、コンピュータビジョンから計算生物学まで、特にデータが本質的にグラフ構造に従属するコンテキストにおいて、様々な領域において、自らを好ましい方法論として確立してきた。 既存の多くの手法は様々な手法を用いてGNNをモデル化しようと努力してきたが、それらが直面している課題は過度なスムーシングの問題である。 本稿では,2つの一階偏微分方程式(PDE)を組み込んだ新しいグラフニューラルネットワークモデルを提案する。 これらのモデルは複雑さを増大させるのではなく、過度に滑らかな問題を効果的に緩和する。 実験結果から,高次PDEモデルと同等の結果を得るための新しいPDEモデルの能力を強調し,最大64層までのオーバースムーシング問題を修正した。 これらの結果は、GNNの適応性と汎用性を強調し、従来と異なるアプローチが確立した手法と同等の結果をもたらすことを示唆している。

Graph Neural Networks (GNNs) have established themselves as the preferred methodology in a multitude of domains, ranging from computer vision to computational biology, especially in contexts where data inherently conform to graph structures. While many existing methods have endeavored to model GNNs using various techniques, a prevalent challenge they grapple with is the issue of over-smoothing. This paper presents new Graph Neural Network models that incorporate two first-order Partial Differential Equations (PDEs). These models do not increase complexity but effectively mitigate the over-smoothing problem. Our experimental findings highlight the capacity of our new PDE model to achieve comparable results with higher-order PDE models and fix the over-smoothing problem up to 64 layers. These results underscore the adaptability and versatility of GNNs, indicating that unconventional approaches can yield outcomes on par with established techniques.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# ポセットを用いた機械学習とデータ分析:調査

Machine Learning and Data Analysis Using Posets: A Survey ( http://arxiv.org/abs/2404.03082v1 )

ライセンス: Link先を確認
Arnauld Mesinga Mwafise, (参考訳) ポセット(英: Poset)は、データ分析や機械学習の幅広い応用において、ユビキタスな離散的な数学的構造である。 データサイエンス領域にポーズを接続する研究は、長年にわたって続けられてきた。 本稿では,その理論,アルゴリズム,応用の観点から,ポーズを用いた機械学習によるデータ解析に関する幅広い研究を包括的に検討する。 さらに、形式的概念解析の格子理論の適用領域も、機械学習の応用の観点から強調される。

Posets are discrete mathematical structures which are ubiquitous in a broad range of data analysis and machine learning applications. Research connecting posets to the data science domain has been ongoing for many years. In this paper, a comprehensive review of a wide range of studies on data analysis amd machine learning using posets are examined in terms of their theory, algorithms and applications. In addition, the applied lattice theory domain of formal concept analysis will also be highlighted in terms of its machine learning applications.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# 経験の協調力学による教師・学生のカリキュラム学習の再考

Rethinking Teacher-Student Curriculum Learning through the Cooperative Mechanics of Experience ( http://arxiv.org/abs/2404.03084v1 )

ライセンス: Link先を確認
Manfred Diaz, Liam Paull, Andrea Tacchetti, (参考訳) Teacher-Student Curriculum Learning (TSCL)は、人間の文化的伝達と学習からインスピレーションを得るカリキュラム学習フレームワークである。 教師アルゴリズムは、学習者のアルゴリズムの学習プロセスを制御された体験に公開することによって形成する。 その成功にもかかわらず、TSCLが有効である条件を理解することは依然として困難である。 本稿では,TSCLにおける教師と学生のインタラクションの基盤となるメカニズムを解析するためのデータ中心の視点を提案する。 我々は協調ゲーム理論を利用して、教師が学習者に提示した経験の集合の構成が、TSCLのアプローチによって見つかるカリキュラムのパフォーマンスにどのように影響するかを説明する。 そのため、全てのTSCL問題に対して、等価な協調ゲームが存在し、ゲーム理論の原理を用いてTSCLフレームワークのいくつかの重要な要素を再解釈できることを示す。 教師付き学習,強化学習,古典ゲームに関する実験を通じて,経験の協調的価値を推定し,TSCLが苦しむ場合においても,カリキュラム構築に価値均等なカリキュラム機構を用いる。 本研究で紹介するフレームワークと実験的なセットアップは、TSCLのより深い探索のための新しい基盤であり、その基盤となるメカニズムに光を当て、機械学習の幅広い適用性に関する洞察を提供する。

Teacher-Student Curriculum Learning (TSCL) is a curriculum learning framework that draws inspiration from human cultural transmission and learning. It involves a teacher algorithm shaping the learning process of a learner algorithm by exposing it to controlled experiences. Despite its success, understanding the conditions under which TSCL is effective remains challenging. In this paper, we propose a data-centric perspective to analyze the underlying mechanics of the teacher-student interactions in TSCL. We leverage cooperative game theory to describe how the composition of the set of experiences presented by the teacher to the learner, as well as their order, influences the performance of the curriculum that is found by TSCL approaches. To do so, we demonstrate that for every TSCL problem, there exists an equivalent cooperative game, and several key components of the TSCL framework can be reinterpreted using game-theoretic principles. Through experiments covering supervised learning, reinforcement learning, and classical games, we estimate the cooperative values of experiences and use value-proportional curriculum mechanisms to construct curricula, even in cases where TSCL struggles. The framework and experimental setup we present in this work represent a novel foundation for a deeper exploration of TSCL, shedding light on its underlying mechanisms and providing insights into its broader applicability in machine learning.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# Talaria: 効率的な推論のためのインタラクティブな機械学習モデル最適化

Talaria: Interactively Optimizing Machine Learning Models for Efficient Inference ( http://arxiv.org/abs/2404.03085v1 )

ライセンス: Link先を確認
Fred Hohman, Chaoqun Wang, Jinmook Lee, Jochen Görtler, Dominik Moritz, Jeffrey P Bigham, Zhile Ren, Cecile Foret, Qi Shan, Xiaoyi Zhang, (参考訳) オンデバイス機械学習(ML)は、計算をクラウドからパーソナルデバイスに移行し、ユーザのプライバシ保護とインテリジェントなユーザエクスペリエンスの実現を可能にする。 しかし、限られたリソースを持つデバイスにモデルを適合させることは、大きな技術的課題である: 実践者はモデル最適化と、モデルのサイズ、レイテンシ、パワーといったハードウェアメトリクスのバランスをとる必要がある。 モデルビジュアライゼーションと最適化システムであるTalariaを,実践者が効率的なMLモデル作成を支援するために開発しました。 Talariaを使うことで、実践者はモデルをハードウェアにコンパイルし、モデル統計をインタラクティブに視覚化し、最適化をシミュレートして推論メトリクスへの影響をテストすることができる。 2年前のTalariaの内部展開から,(1)800人以上の実践者が3,600以上のモデルを提出したことを強調したログ分析,(2)26人のユーザが20のTalaria機能の有用性を評価したユーザビリティ調査,(3)最もアクティブな7人のユーザに対して,Talariaを使用した経験について質的なインタビューを行った。

On-device machine learning (ML) moves computation from the cloud to personal devices, protecting user privacy and enabling intelligent user experiences. However, fitting models on devices with limited resources presents a major technical challenge: practitioners need to optimize models and balance hardware metrics such as model size, latency, and power. To help practitioners create efficient ML models, we designed and developed Talaria: a model visualization and optimization system. Talaria enables practitioners to compile models to hardware, interactively visualize model statistics, and simulate optimizations to test the impact on inference metrics. Since its internal deployment two years ago, we have evaluated Talaria using three methodologies: (1) a log analysis highlighting its growth of 800+ practitioners submitting 3,600+ models; (2) a usability survey with 26 users assessing the utility of 20 Talaria features; and (3) a qualitative interview with the 7 most active users about their experience using Talaria.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# 言語モデルを用いた採用決定の指導

Auditing the Use of Language Models to Guide Hiring Decisions ( http://arxiv.org/abs/2404.03086v1 )

ライセンス: Link先を確認
Johann D. Gaebler, Sharad Goel, Aziz Huq, Prasanna Tambe, (参考訳) アルゴリズムバイアスから保護するための規制努力は、大規模言語モデル(LLM)の急速な進歩により緊急度を高めている。 これらのイニシアティブの重要なテーマは、アルゴリズムによる「監査」であるが、現在の規制と科学文献は、これらの評価の実施方法に関するガイダンスをほとんど提供していない。 本稿では,人間の判断におけるバイアスを検出する手段として広く利用されている対応実験という,監査アルゴリズムの1つのアプローチを提案し,検討する。 雇用の文脈では、求職申告書の要素を実験的に操作し、求職者の年齢特性、例えばその名前等を推定することで、人種や性別がどのような決定に影響を及ぼすかを測定することを目的としている。 本手法は,大規模公立学区におけるK-12教職の新規なコーパスを用いた,最先端のLLMによる候補評価に応用する。 我々は、中等人種と男女格差の証拠を見出した。このパターンは、モデルに入力される応用材料の種類や、LLMへのタスクのフレーミングを、ほとんど確実に変化させる。 我々は、監査アルゴリズムにおける対応実験のいくつかの重要な制限について論じる。

Regulatory efforts to protect against algorithmic bias have taken on increased urgency with rapid advances in large language models (LLMs), which are machine learning models that can achieve performance rivaling human experts on a wide array of tasks. A key theme of these initiatives is algorithmic "auditing," but current regulations -- as well as the scientific literature -- provide little guidance on how to conduct these assessments. Here we propose and investigate one approach for auditing algorithms: correspondence experiments, a widely applied tool for detecting bias in human judgements. In the employment context, correspondence experiments aim to measure the extent to which race and gender impact decisions by experimentally manipulating elements of submitted application materials that suggest an applicant's demographic traits, such as their listed name. We apply this method to audit candidate assessments produced by several state-of-the-art LLMs, using a novel corpus of applications to K-12 teaching positions in a large public school district. We find evidence of moderate race and gender disparities, a pattern largely robust to varying the types of application material input to the models, as well as the framing of the task to the LLMs. We conclude by discussing some important limitations of correspondence experiments for auditing algorithms.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# 無線ネットワークのためのロバストなフェデレーション学習:チャネル推定による実証

Robust Federated Learning for Wireless Networks: A Demonstration with Channel Estimation ( http://arxiv.org/abs/2404.03088v1 )

ライセンス: Link先を確認
Zexin Fang, Bin Han, Hans D. Schotten, (参考訳) フェデレートラーニング(FL)は、無線ネットワークにおけるトレーニングモデルに対して、プライバシー保護のための協調的なアプローチを提供する。 FLを用いたチャネル推定に関する広範な研究にもかかわらず、FLに関連するセキュリティ上の懸念は注意を要する。 小規模基地局(SBS)がキャッシュされたデータに基づいて訓練されたローカルモデルとして機能し、マクロ基地局(MBS)がグローバルモデル設定として機能するシナリオでは、攻撃者はFLの脆弱性を悪用し、様々な敵攻撃や展開戦術で攻撃を開始することができる。 本稿では,このような脆弱性を分析し,それに対応する解決策を提示し,シミュレーションにより検証した。

Federated learning (FL) offers a privacy-preserving collaborative approach for training models in wireless networks, with channel estimation emerging as a promising application. Despite extensive studies on FL-empowered channel estimation, the security concerns associated with FL require meticulous attention. In a scenario where small base stations (SBSs) serve as local models trained on cached data, and a macro base station (MBS) functions as the global model setting, an attacker can exploit the vulnerability of FL, launching attacks with various adversarial attacks or deployment tactics. In this paper, we analyze such vulnerabilities, corresponding solutions were brought forth, and validated through simulation.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# ロボットによるシンボル接地のための教師なし・ボトムアップカテゴリー発見

Unsupervised, Bottom-up Category Discovery for Symbol Grounding with a Curious Robot ( http://arxiv.org/abs/2404.03092v1 )

ライセンス: Link先を確認
Catherine Henry, Casey Kennington, (参考訳) シンボルグラウンディング問題に対処し、幼児期の言語発達に動機づけられたロボットを活用するために、我々は、物理的世界に根ざした教師なしカテゴリーのボトムアップ構築に特化して好奇心の近似モデルを備えたロボットを利用する。 すなわち、トップダウンシンボル(例えば、オブジェクトを指す単語)から始めて、所定のサンプルを適用することによって意味を提供するのではなく、ロボットが自律的に、徐々にその探索空間を、外部の専門家が任意にシンボル関連を提供することができるような、特定のラベル付けされていない一連のカテゴリに分解する。 我々は、視覚世界を観察できるロボットを用いて、より高次元の感覚空間を導入し、より一般化可能なカテゴリー構築方法を用いて、先行作業を拡張した。 我々の実験は、ロボットが行動と視覚的に観察するものに基づいてカテゴリを学習し、それらのカテゴリを象徴的に「https://info.arxiv.org/help/prep#comments」に分類できることを示した。

Towards addressing the Symbol Grounding Problem and motivated by early childhood language development, we leverage a robot which has been equipped with an approximate model of curiosity with particular focus on bottom-up building of unsupervised categories grounded in the physical world. That is, rather than starting with a top-down symbol (e.g., a word referring to an object) and providing meaning through the application of predetermined samples, the robot autonomously and gradually breaks up its exploration space into a series of increasingly specific unlabeled categories at which point an external expert may optionally provide a symbol association. We extend prior work by using a robot that can observe the visual world, introducing a higher dimensional sensory space, and using a more generalizable method of category building. Our experiments show that the robot learns categories based on actions and what it visually observes, and that those categories can be symbolically grounded into.https://info.arxiv.org/help/prep#comments
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# SalFoM: ビデオファウンデーションモデルによる動的サリエンシ予測

SalFoM: Dynamic Saliency Prediction with Video Foundation Models ( http://arxiv.org/abs/2404.03097v1 )

ライセンス: Link先を確認
Morteza Moradi, Mohammad Moradi, Francesco Rundo, Concetto Spampinato, Ali Borji, Simone Palazzo, (参考訳) 近年のVSPの進歩は人間の視覚システムと比較して有望な性能を示しており,そのエミュレーションがVSPの第一の目標となっている。 しかし、現在の最先端モデルは、限られた量のデータに基づいて訓練された時空間変換器を採用しており、下流タスクへの一般化を妨げている。 ビジョンファウンデーションモデルの利点は、VSPプロセスを改善する潜在的な解決策を提供する。 しかし,映像基礎モデルをビデオ領域に適応させることは,シーンのダイナミクスをモデル化し,時間的情報を取得する上で大きな課題となる。 これらの課題に対処し、ビデオファンデーションモデルに基づくVSPモデルを設計する最初の取り組みとして、新しいエンコーダデコーダビデオトランスフォーマアーキテクチャであるSalFoMを紹介する。 本モデルでは,UnMasked Teacher (UMT) を特徴抽出器として使用し,局所性を考慮した時空間変換器を特徴とする異種デコーダを提示し,各視点からの時空間情報と大域時空間情報を統合して最終的な時空間マップを作成する。 DHF1K, Hollywood-2, UCF-Sports の挑戦的 VSP ベンチマークデータセットに関する定性的および定量的実験により,提案モデルが最先端の手法と比較して優れていることを示す。

Recent advancements in video saliency prediction (VSP) have shown promising performance compared to the human visual system, whose emulation is the primary goal of VSP. However, current state-of-the-art models employ spatio-temporal transformers trained on limited amounts of data, hindering generalizability adaptation to downstream tasks. The benefits of vision foundation models present a potential solution to improve the VSP process. However, adapting image foundation models to the video domain presents significant challenges in modeling scene dynamics and capturing temporal information. To address these challenges, and as the first initiative to design a VSP model based on video foundation models, we introduce SalFoM, a novel encoder-decoder video transformer architecture. Our model employs UnMasked Teacher (UMT) as feature extractor and presents a heterogeneous decoder which features a locality-aware spatio-temporal transformer and integrates local and global spatio-temporal information from various perspectives to produce the final saliency map. Our qualitative and quantitative experiments on the challenging VSP benchmark datasets of DHF1K, Hollywood-2 and UCF-Sports demonstrate the superiority of our proposed model in comparison with the state-of-the-art methods.
翻訳日:2024-04-05 16:22:48 公開日:2024-04-03
# 人間の論理を用いたテキスト分類器のモデル性能と説明可能性のトレードオフを探る

Exploring the Trade-off Between Model Performance and Explanation Plausibility of Text Classifiers Using Human Rationales ( http://arxiv.org/abs/2404.03098v1 )

ライセンス: Link先を確認
Lucas E. Resck, Marcos M. Raimundo, Jorge Poco, (参考訳) ホック後説明可能性法は、ますます複雑なNLPモデルを理解するための重要なツールである。 これらの手法はモデルの推論を反映できるが、人間の直観と一致しない可能性があり、説明は不可能である。 本研究では,人間の判断を説明するテキストアノテーションである有理論をテキスト分類モデルに組み込む手法を提案する。 この組織化は、彼らの忠実さを維持しながら、ポストホックな説明の妥当性を高める。 我々のアプローチはアーキテクチャや説明可能性の手法をモデル化しない。 対照的な学習にインスパイアされた新しい損失関数を用いて、標準的なクロスエントロピー損失を増大させることにより、モデルトレーニング中に有理性を導入する。 多目的最適化アルゴリズムを利用して、2つの損失関数間のトレードオフを探索し、性能と妥当性のバランスをとるモデルのパレート最適フロンティアを生成する。 多様なモデル,データセット,説明可能性メソッドを含む広範な実験を通じて,本手法は,原モデルの性能を著しく低下させることなく,モデル説明の質を著しく向上させることを示した。

Saliency post-hoc explainability methods are important tools for understanding increasingly complex NLP models. While these methods can reflect the model's reasoning, they may not align with human intuition, making the explanations not plausible. In this work, we present a methodology for incorporating rationales, which are text annotations explaining human decisions, into text classification models. This incorporation enhances the plausibility of post-hoc explanations while preserving their faithfulness. Our approach is agnostic to model architectures and explainability methods. We introduce the rationales during model training by augmenting the standard cross-entropy loss with a novel loss function inspired by contrastive learning. By leveraging a multi-objective optimization algorithm, we explore the trade-off between the two loss functions and generate a Pareto-optimal frontier of models that balance performance and plausibility. Through extensive experiments involving diverse models, datasets, and explainability methods, we demonstrate that our approach significantly enhances the quality of model explanations without causing substantial (sometimes negligible) degradation in the original model's performance.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# NEON-Neon-Neural Epistemic Operator Networkを用いた関数空間の複合ベイズ最適化

Composite Bayesian Optimization In Function Spaces Using NEON -- Neural Epistemic Operator Networks ( http://arxiv.org/abs/2404.03099v1 )

ライセンス: Link先を確認
Leonardo Ferreira Guilhoto, Paris Perdikaris, (参考訳) 演算子学習(Operator learning)は、機械学習モデルの入力や出力が無限次元空間で定義される関数である科学計算の分野である。 本稿では、単一演算子ネットワークバックボーンを用いて不確実性のある予測を生成するアーキテクチャNEON(Neural Epistemic Operator Networks)を紹介する。 ここでは、関数 $f=g\circ h$, where $h:X\to C(\mathcal{Y},\mathbb{R}^{d_s})$ は関数空間の要素を出力する未知の写像であり、$g: C(\mathcal{Y},\mathbb{R}^{d_s})\to \mathbb{R}$ は既知かつ安価な計算関数である。 玩具や現実のシナリオにおける他の最先端手法と比較することにより、NEONはトレーニング可能なパラメータのオーダーを極端に少なくしながら、最先端のパフォーマンスを達成できることを実証する。

Operator learning is a rising field of scientific computing where inputs or outputs of a machine learning model are functions defined in infinite-dimensional spaces. In this paper, we introduce NEON (Neural Epistemic Operator Networks), an architecture for generating predictions with uncertainty using a single operator network backbone, which presents orders of magnitude less trainable parameters than deep ensembles of comparable performance. We showcase the utility of this method for sequential decision-making by examining the problem of composite Bayesian Optimization (BO), where we aim to optimize a function $f=g\circ h$, where $h:X\to C(\mathcal{Y},\mathbb{R}^{d_s})$ is an unknown map which outputs elements of a function space, and $g: C(\mathcal{Y},\mathbb{R}^{d_s})\to \mathbb{R}$ is a known and cheap-to-compute functional. By comparing our approach to other state-of-the-art methods on toy and real world scenarios, we demonstrate that NEON achieves state-of-the-art performance while requiring orders of magnitude less trainable parameters.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# MARL-LNS:大規模地域探索による協調型マルチエージェント強化学習

MARL-LNS: Cooperative Multi-agent Reinforcement Learning via Large Neighborhoods Search ( http://arxiv.org/abs/2404.03101v1 )

ライセンス: Link先を確認
Weizhe Chen, Sven Koenig, Bistra Dilkina, (参考訳) 協調型マルチエージェント強化学習(MARL)は、現実世界の応用の可能性が大きいため、過去半年でますます重要な研究課題となっている。 次元性の呪いのため、一般的な"集中型トレーニング分散実行"フレームワークは、トレーニングに長い時間を要するが、それでも効率的に収束することはできない。 本稿では,既存の深層MARLアルゴリズムを低レベルトレーナーとして用いるエージェントのサブセットを交互に訓練することで,これらの問題にアルゴリズム的に対処する汎用トレーニングフレームワークであるMARL-LNSを提案する。 この枠組みに基づいて,ランダム大近傍探索(RLNS),バッチ大近傍探索(BLNS),適応大近傍探索(ALNS)という,エージェントのサブセットを異なる方法で置き換える3つのアルゴリズム変種を提案する。 我々のアルゴリズムはStarCraft Multi-Agent ChallengeとGoogle Research Footballの両方でテストし、元のアルゴリズムと同じ最終スキルレベルに達しながら、トレーニング時間の少なくとも10%を自動で削減できることを示した。

Cooperative multi-agent reinforcement learning (MARL) has been an increasingly important research topic in the last half-decade because of its great potential for real-world applications. Because of the curse of dimensionality, the popular "centralized training decentralized execution" framework requires a long time in training, yet still cannot converge efficiently. In this paper, we propose a general training framework, MARL-LNS, to algorithmically address these issues by training on alternating subsets of agents using existing deep MARL algorithms as low-level trainers, while not involving any additional parameters to be trained. Based on this framework, we provide three algorithm variants based on the framework: random large neighborhood search (RLNS), batch large neighborhood search (BLNS), and adaptive large neighborhood search (ALNS), which alternate the subsets of agents differently. We test our algorithms on both the StarCraft Multi-Agent Challenge and Google Research Football, showing that our algorithms can automatically reduce at least 10% of training time while reaching the same final skill level as the original algorithm.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# ニュートリノ・ウェーブパレットの空間的極性に関する直接実験的制約

Direct Experimental Constraints on the Spatial Extent of a Neutrino Wavepacket ( http://arxiv.org/abs/2404.03102v1 )

ライセンス: Link先を確認
Joseph Smolsky, Kyle G Leach, Ryan Abells, Pedro Amaro, Adrien Andoche, Keith Borbridge, Connor Bray, Robin Cantor, David Diercks, Spencer Fretwell, Stephan Friedrich, Abigail Gillespie, Mauro Guerra, Ad Hall, Cameron N Harris, Jackson T Harris, Calvin Hinkle, Amii Lamm, Leendert M Hayen, Paul-Antoine Hervieux, Geon-Bo Kim, Inwook Kim, Annika Lennarz, Vincenzo Lordi, Jorge Machado, Andrew Marino, David McKeen, Xavier Mougeot, Francisco Ponce, Chris Ruiz, Amit Samanta, José Paulo Santos, Caitlyn Stone-Whitehead, John Taylor, Joseph Templet, Sriteja Upadhyayula, Louis Wagner, William K Warburton, (参考訳) ニュートリノは宇宙の相対的な存在量が高いにもかかわらず、自然界の基本的な粒子としては最も理解されていない。 また、非常に弱い相互作用確率のため、基本系の量子コヒーレンスを研究するためのユニークなシステムも提供する。 実験関連源で放出されるニュートリノの量子的性質は事実上不明であり、ニュートリノ波束の空間幅に関する理論的予測は桁違いに変化する。 弱い核崩壊では、ニュートリノの波束である$\sigma_{\nu,x}$は、生産時の親の空間的波動関数と関連している。 ここでは、核電子捕獲(EC)崩壊時に放出される反核子核のエネルギー幅$\sigma_{\textrm{N},E}$を抽出する新しい実験的概念により、この量の最初の直接的限界を提示する。 EC崩壊過程の最終状態は、再沸騰する$^7$Li核と電子ニュートリノ(\nu_e$)を含む。 ^7$Liエネルギースペクトルは、低温電荷感受性検出器として動作する高分解能超伝導トンネル接合部に、$^7$Be放射性同位体を直接埋め込むことにより、高精度に測定される。 リコイル娘の空間コヒーレンスの限界は$\sigma_{\textrm{N}, x} \geq 6.2$ pmであり、これは核スケールよりも空間コヒーレントな状態のままであることを意味する。 さらに、これはニュートリノ・ウェーブパケットのサイズに対する低い制限である$\sigma_{\nu,x} \geq 35$ nmであり、これらは結合された全ての反応器振動実験の限界よりも5桁以上の拘束力を持つ。 これらの結果は、量子コヒーレンス、サブ原子スケールでの空間的局在化の性質、ニュートリノ物理データの解釈、そして将来の大規模実験の潜在的な到達度など、いくつかの領域において幅広い意味を持つ。

Despite their high relative abundance in our Universe, neutrinos are the least understood fundamental particles of nature. They also provide a unique system to study quantum coherence in fundamental systems due to their extremely weak interaction probabilities. The quantum properties of neutrinos emitted in experimentally relevant sources are virtually unknown and theoretical predictions for the spatial width of neutrino wavepackets vary by many orders of magnitude. In weak nuclear decay, the size of a neutrino wavepacket, $\sigma_{\nu,x}$, is related to the spatial wavefunction of its parent at production. Here, we present the first direct limits of this quantity through a new experimental concept to extract the energy width, $\sigma_{\textrm{N},E}$, of the recoil daughter nucleus emitted in the nuclear electron capture (EC) decay of $^7$Be. The final state in the EC decay process contains a recoiling $^7$Li nucleus and an electron neutrino ($\nu_e$) which are entangled at their creation. The $^7$Li energy spectrum is measured to high precision by directly embedding $^7$Be radioisotopes into a high resolution superconducting tunnel junction that is operated as a cryogenic charge sensitive detector. The lower limit on the spatial coherence of the recoil daughter was found to be $\sigma_{\textrm{N}, x} \geq 6.2$ pm, which implies the system remains in a spatially coherent state much larger than the nuclear scale. Further, this implies a lower limit on the size of a neutrino wavepacket, $\sigma_{\nu,x} \geq 35$ nm, which is more than five orders of magnitude more stringent than the limits from all combined reactor oscillation experiments. These results have wide-reaching implications in several areas including quantum coherence, the nature of spatial localization at sub-atomic scales, interpretation of neutrino physics data, and the potential reach of future large-scale experiments.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# 機械式換気の最適化のための解釈型強化学習法

Methodology for Interpretable Reinforcement Learning for Optimizing Mechanical Ventilation ( http://arxiv.org/abs/2404.03105v1 )

ライセンス: Link先を確認
Joo Seung Lee, Malini Mahendra, Anil Aswani, (参考訳) 機械的換気は、機械を用いて患者の肺に制御された空気と酸素を供給し、自然呼吸を補助または置き換える重要な生命維持介入である。 人工呼吸器の制御戦略を最適化するためのデータ駆動型アプローチがいくつか提案されているが、解釈可能性や一般的なドメイン知識との整合性が欠如していることが多い。 本稿では,機械的換気制御のための決定木を用いた強化学習(RL)の方法論を提案する。 原因的非パラメトリックモデルに基づくオフポリチック評価を用いて,SpO2の上昇と,人工呼吸器による肺障害などの合併症を引き起こすと知られている積極的人工呼吸器設定の回避を図った。 MIMIC-IIIデータを用いたリアル患者の集中治療室の滞在状況に関する数値実験は、決定木ポリシーが行動クローニングポリシーを上回り、最先端のRLポリシーに匹敵することを示した。 今後の作業は、コスト関数と医療目的との整合性を改善し、より深い臨床的洞察を生み出すことである。

Mechanical ventilation is a critical life-support intervention that uses a machine to deliver controlled air and oxygen to a patient's lungs, assisting or replacing spontaneous breathing. While several data-driven approaches have been proposed to optimize ventilator control strategies, they often lack interpretability and agreement with general domain knowledge. This paper proposes a methodology for interpretable reinforcement learning (RL) using decision trees for mechanical ventilation control. Using a causal, nonparametric model-based off-policy evaluation, we evaluate the policies in their ability to gain increases in SpO2 while avoiding aggressive ventilator settings which are known to cause ventilator induced lung injuries and other complications. Numerical experiments using MIMIC-III data on the stays of real patients' intensive care unit stays demonstrate that the decision tree policy outperforms the behavior cloning policy and is comparable to state-of-the-art RL policy. Future work concerns better aligning the cost function with medical objectives to generate deeper clinical insights.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# 自己回帰拡散モデルを用いた多対多画像生成

Many-to-many Image Generation with Auto-regressive Diffusion Models ( http://arxiv.org/abs/2404.03109v1 )

ライセンス: Link先を確認
Ying Shen, Yizhe Zhang, Shuangfei Zhai, Lifu Huang, Joshua M. Susskind, Jiatao Gu, (参考訳) 最近の画像生成の進歩は大きな進歩を遂げているが、既存のモデルでは、広い文脈で任意の数の関連画像の知覚と生成に制限がある。 マルチメディアプラットフォームの拡大に伴い、マルチビューイメージやビジュアルナラティブといったマルチイメージシナリオの需要が増大するにつれて、この制限はますます重要になる。 本稿では,画像の集合から相互関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案し,多様なマルチイメージシナリオにまたがるタスク固有ソリューションの必要性を回避できるスケーラブルなソリューションを提供する。 これを容易にするために,25個の相互接続された画像を持つ12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。 遅延雑音の異なる安定拡散を利用して、1つのキャプションから一組の相互接続画像を生成する。 MISを活用することで、多対多生成のための自己回帰モデルであるM2Mを学び、各画像は拡散フレームワーク内でモデル化される。 合成MISのトレーニングを通じて、モデルは、先行画像(合成または実画像)からスタイルと内容を抽出し、キャプチャされたパターンに従って新しい画像を生成する。 さらに,タスク固有の微調整により,新しいビュー合成やビジュアルプロシージャ生成など,様々なマルチイメージ生成タスクへの適応性を示す。

Recent advancements in image generation have made significant progress, yet existing models present limitations in perceiving and generating an arbitrary number of interrelated images within a broad context. This limitation becomes increasingly critical as the demand for multi-image scenarios, such as multi-view images and visual narratives, grows with the expansion of multimedia platforms. This paper introduces a domain-general framework for many-to-many image generation, capable of producing interrelated image series from a given set of images, offering a scalable solution that obviates the need for task-specific solutions across different multi-image scenarios. To facilitate this, we present MIS, a novel large-scale multi-image dataset, containing 12M synthetic multi-image samples, each with 25 interconnected images. Utilizing Stable Diffusion with varied latent noises, our method produces a set of interconnected images from a single caption. Leveraging MIS, we learn M2M, an autoregressive model for many-to-many generation, where each image is modeled within a diffusion framework. Throughout training on the synthetic MIS, the model excels in capturing style and content from preceding images - synthetic or real - and generates novel images following the captured patterns. Furthermore, through task-specific fine-tuning, our model demonstrates its adaptability to various multi-image generation tasks, including Novel View Synthesis and Visual Procedure Generation.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# Ego-Motion Aware Target Prediction Module for Robust Multi-Object Tracking

Ego-Motion Aware Target Prediction Module for Robust Multi-Object Tracking ( http://arxiv.org/abs/2404.03110v1 )

ライセンス: Link先を確認
Navid Mahdian, Mohammad Jani, Amir M. Soufi Enayati, Homayoun Najjaran, (参考訳) マルチオブジェクトトラッキング(MOT)は、自律運転に適用されたコンピュータビジョンにおいて顕著なタスクであり、複数のオブジェクト軌跡の同時追跡に責任を負う。 検出ベースマルチオブジェクト追跡(DBT)アルゴリズムは、独立オブジェクト検出器を用いてオブジェクトを検出し、各ターゲットの差し迫った位置を予測する。 従来のDBTの予測手法では、カルマンフィルタ(KF)を用いて、一定の速度運動モデルを仮定して、次のフレームのターゲット位置を推定する。 これらの方法は、劇的なカメラの動きや不利用可能な検出のために、特に自律運転の応用において妨げられている。 このような制限は、多数のアイデンティティスイッチと破壊されたトラジェクトリによって現れる障害を追跡することにつながる。 本稿では、カメラモーションと深度情報とオブジェクトモーションモデルの統合に着目し、Ego-motion Aware Target Prediction (EMAP)モジュールと呼ばれる新しいKFベースの予測モジュールを提案する。 提案手法は、カルマンフィルタを再構成することにより、物体軌道からのカメラ回転速度と翻訳速度の影響を分離する。 この改質により,カメラの動きによる乱れを回避でき,物体の動きモデルの信頼性を最大化することができる。 我々はこのモジュールを,最先端のMOTアルゴリズムであるOC-SORT,Deep OC-SORT,ByteTrack,BoT-SORTと統合する。 特に,KITTI MOTデータセットを用いた評価では,OC-SORTとDeep OC-SORTのIDSWをそれぞれ73%,21%削減した。 同時に、HOTAなどの他のパフォーマンス指標を5%以上高めている。 ソースコードはhttps://github.com/noyzzz/EMAP.comで公開されています。

Multi-object tracking (MOT) is a prominent task in computer vision with application in autonomous driving, responsible for the simultaneous tracking of multiple object trajectories. Detection-based multi-object tracking (DBT) algorithms detect objects using an independent object detector and predict the imminent location of each target. Conventional prediction methods in DBT utilize Kalman Filter(KF) to extrapolate the target location in the upcoming frames by supposing a constant velocity motion model. These methods are especially hindered in autonomous driving applications due to dramatic camera motion or unavailable detections. Such limitations lead to tracking failures manifested by numerous identity switches and disrupted trajectories. In this paper, we introduce a novel KF-based prediction module called the Ego-motion Aware Target Prediction (EMAP) module by focusing on the integration of camera motion and depth information with object motion models. Our proposed method decouples the impact of camera rotational and translational velocity from the object trajectories by reformulating the Kalman Filter. This reformulation enables us to reject the disturbances caused by camera motion and maximizes the reliability of the object motion model. We integrate our module with four state-of-the-art base MOT algorithms, namely OC-SORT, Deep OC-SORT, ByteTrack, and BoT-SORT. In particular, our evaluation on the KITTI MOT dataset demonstrates that EMAP remarkably drops the number of identity switches (IDSW) of OC-SORT and Deep OC-SORT by 73% and 21%, respectively. At the same time, it elevates other performance metrics such as HOTA by more than 5%. Our source code is available at https://github.com/noyzzz/EMAP.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# 大規模言語モデルコード理解におけるコードドキュメンテーションの効果の検証

Testing the Effect of Code Documentation on Large Language Model Code Understanding ( http://arxiv.org/abs/2404.03114v1 )

ライセンス: Link先を確認
William Macke, Michael Doyle, (参考訳) 大規模言語モデル(LLM)は、コード生成と理解に関して、近年、印象的な能力を示している。 しかしながら、ドキュメントやその他のコードプロパティがLLMのコードやドキュメントを理解し、生成する能力にどのように影響するかは、ほとんど研究されていない。 コードやドキュメンテーションの基盤となる特性がLLMの機能にどのように影響するかを実証的に分析する。 不完全あるいは欠落したドキュメントは、LLMがコードを理解する能力に大きく影響しないように見える。

Large Language Models (LLMs) have demonstrated impressive abilities in recent years with regards to code generation and understanding. However, little work has investigated how documentation and other code properties affect an LLM's ability to understand and generate code or documentation. We present an empirical analysis of how underlying properties of code or documentation can affect an LLM's capabilities. We show that providing an LLM with "incorrect" documentation can greatly hinder code understanding, while incomplete or missing documentation does not seem to significantly affect an LLM's ability to understand code.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# 社会経済・電力基盤データを用いた深層学習に基づく気象関連停電予測

Deep Learning-Based Weather-Related Power Outage Prediction with Socio-Economic and Power Infrastructure Data ( http://arxiv.org/abs/2404.03115v1 )

ライセンス: Link先を確認
Xuesong Wang, Nina Fatehi, Caisheng Wang, Masoud H. Nazari, (参考訳) 本稿では,企業サービス領域を含むセンサストラクタにおける時間ごとの停電確率予測のためのディープラーニングに基づくアプローチを提案する。 気象データ、気象観測所の位置、電力インフラマップ、社会経済的・人口統計、電力停止記録など、一般に公開されている情報源から収集された豊富な入力特徴を活用して、電力停止確率を予測するために、2つの異なる深層学習モデル、条件付きマルチ層パーセプトロン(MLP)と無条件MPPを開発した。 1時間の天気予報が与えられた場合、各国勢調査区域の停電確率を予測し、天気予報と位置特性を考慮に入れた。 ディープラーニングモデルは、予測性能を最適化するために異なる損失関数を使用した。 以上の結果から,センサスレベルでの停電予測の精度を高める上で,社会経済的要因の重要性が示唆された。

This paper presents a deep learning-based approach for hourly power outage probability prediction within census tracts encompassing a utility company's service territory. Two distinct deep learning models, conditional Multi-Layer Perceptron (MLP) and unconditional MLP, were developed to forecast power outage probabilities, leveraging a rich array of input features gathered from publicly available sources including weather data, weather station locations, power infrastructure maps, socio-economic and demographic statistics, and power outage records. Given a one-hour-ahead weather forecast, the models predict the power outage probability for each census tract, taking into account both the weather prediction and the location's characteristics. The deep learning models employed different loss functions to optimize prediction performance. Our experimental results underscore the significance of socio-economic factors in enhancing the accuracy of power outage predictions at the census tract level.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# LVLM-Intrepret:大規模視覚言語モデルの解釈可能性ツール

LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models ( http://arxiv.org/abs/2404.03118v1 )

ライセンス: Link先を確認
Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal, (参考訳) 人工知能の急速な発展の中で、多モーダルな言語モデルは重要な関心領域として現れつつある。 様々な形式のデータ入力を組み合わせたこれらのモデルは、ますます人気が高まっている。 しかし、それらの内部メカニズムを理解することは依然として複雑な作業である。 説明可能性ツールやメカニズムの分野では、多くの進歩がなされているが、まだ多くの研究がある。 本研究では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。 このインタフェースは,回答を生成するのに有用な画像パッチの解釈可能性を高め,その出力を画像に基礎づける際の言語モデルの有効性を評価する。 我々のアプリケーションでは、ユーザーはシステム機能の強化のために、モデルとシステムの限界を体系的に調査し、発見することができる。 最後に、我々のアプリケーションは、人気のある大規模マルチモーダルモデルであるLLaVAにおいて、障害メカニズムを理解するのにどのように役立つか、ケーススタディを示す。

In the rapidly evolving landscape of artificial intelligence, multi-modal large language models are emerging as a significant area of interest. These models, which combine various forms of data input, are becoming increasingly popular. However, understanding their internal mechanisms remains a complex task. Numerous advancements have been made in the field of explainability tools and mechanisms, yet there is still much to explore. In this work, we present a novel interactive application aimed towards understanding the internal mechanisms of large vision-language models. Our interface is designed to enhance the interpretability of the image patches, which are instrumental in generating an answer, and assess the efficacy of the language model in grounding its output in the image. With our application, a user can systematically investigate the model and uncover system limitations, paving the way for enhancements in system capabilities. Finally, we present a case study of how our application can aid in understanding failure mechanisms in a popular large multi-modal model: LLaVA.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# 大規模キャップストーンコースにおける学生のエンゲージメント向上に関する経験報告

Enhancing Student Engagement in Large-Scale Capstone Courses: An Experience Report ( http://arxiv.org/abs/2404.03120v1 )

ライセンス: Link先を確認
Asma Shakil, Paul Denny, (参考訳) コンピュータサイエンス(CS)の科目は、学生にソフトウェア開発の経験を身につける貴重な機会を与え、重要なソフトスキルを実践し、採用可能性を高める。 多くのCSの学部では中核的な要素であり、ACMのカリキュラムの要件に対処し、学生に専門的な配当を授け、コンピューティングのより広範な社会的意味を認識させる。 しかし,特に大学生のコホートでは,アカッドストーンコースをコーディネートすることは,大学職員にとって大変な作業となる。 学生、学術スタッフ、外部ステークホルダー間の活動の計画と調整にかなりの時間とエネルギーを必要とする。 本経験報告では,6回の連続セッションで大きく成長するにつれて,キャップストーンコースの反復的開発と改良について概説する。 授業終了調査や学生の書き直しによって評価されるように、学生のエンゲージメントとモチベーションを高めるのに役立った教育について概説した。 私たちは学んだ教訓を共有し、新しいキャップストーンコースを設計したり、既存のコースをスケールしようとする教育者に対してレコメンデーションを提供しています。

Computer science (CS) capstone courses offer students a valuable opportunity to gain hands-on experience in software development, practice essential soft skills, and enhance their employability prospects. They are a core component in many CS undergraduate degrees and address the ACM curricula requirements of inculcating professional dispositions in students and making them aware of the broader societal implications of computing. However, coordinating a capstone course, especially for a large student cohort, can be a daunting task for academic staff. It demands considerable time and energy for planning and coordinating activities between students, academic staff, and any external stakeholders. In this experience report, we outline the iterative development and refinement of our capstone course as it grew substantially in size over a span of six consecutive sessions. We outline the pedagogies that helped us to enhance student engagement and motivation in the course as assessed by end-of-course surveys and students' written reflections. We share the lessons that we have learnt and provide recommendations to educators who are designing new capstone courses or looking to scale existing ones.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# コンピュータビジョンを用いた実験的マウスのワクチン副作用の連続モニタリング

Utilizing Computer Vision for Continuous Monitoring of Vaccine Side Effects in Experimental Mice ( http://arxiv.org/abs/2404.03121v1 )

ライセンス: Link先を確認
Chuang Li, Shuai Shao, Willian Mikason, Rubing Lin, Yantong Liu, (参考訳) ワクチン安全性評価の効率化と精度向上の需要が高まっている。 本稿では,ワクチン投与後の副作用に対する実験マウスのモニタリングを自動化するコンピュータビジョン技術の応用について検討する。 従来の観察方法は労働集約的であり、継続的な監視能力に欠ける。 本研究は,コンピュータビジョンシステムの導入により,ワクチンの安全性評価の効率性と精度を向上させることを目的としている。 この手法では、ワクチン接種前および接種後のマウスの行動の注釈付きビデオデータに基づいて機械学習モデルをトレーニングする。 予備的な結果は、コンピュータビジョンが微妙な変化を効果的に識別し、副作用を示唆していることを示している。 そこで本手法は,動物におけるワクチン接種試験におけるモニタリングプロセスを著しく向上させる可能性があり,人間の観察の限界に対する現実的な解決策となる。

The demand for improved efficiency and accuracy in vaccine safety assessments is increasing. Here, we explore the application of computer vision technologies to automate the monitoring of experimental mice for potential side effects after vaccine administration. Traditional observation methods are labor-intensive and lack the capability for continuous monitoring. By deploying a computer vision system, our research aims to improve the efficiency and accuracy of vaccine safety assessments. The methodology involves training machine learning models on annotated video data of mice behaviors pre- and post-vaccination. Preliminary results indicate that computer vision effectively identify subtle changes, signaling possible side effects. Therefore, our approach has the potential to significantly enhance the monitoring process in vaccine trials in animals, providing a practical solution to the limitations of human observation.
翻訳日:2024-04-05 16:12:59 公開日:2024-04-03
# AutoML in the Wild: 障害物、回避策、期待

AutoML in The Wild: Obstacles, Workarounds, and Expectations ( http://arxiv.org/abs/2302.10827v3 )

ライセンス: Link先を確認
Yuan Sun, Qiurong Song, Xinning Gui, Fenglong Ma, Ting Wang, (参考訳) Automated Machine Learning (AutoML) は、ML技術が一般ユーザでも利用できるようにするためのものだ。 最近の研究は、標準のMLワークフローを通してAutoML機能を強化する上での人間の役割を調査している。 しかし、ユーザーが既存のAutoMLソリューションを、全体論的観点から、複雑な実世界の設定でどのように採用するかを理解することも重要だ。 このギャップを埋めるために,本研究では,(1)現実の実践においてユーザが直面するAutoMLの限界,(2)ユーザがそのような制限に対処するために採用する戦略,(3)AutoMLの使用にどのような制限と回避が及ぼすかを理解することに焦点を当てた,AutoMLユーザ(N=19)の半構造化インタビューを行った。 その結果,カスタマイズ性,透明性,プライバシーから生じる3つの大きな課題を克服するために,ユーザエージェンシーを積極的に実施していることが判明した。 さらに、AutoMLをケースバイケースで適用する方法についても慎重に判断する。 最後に、将来のAutoMLソリューションを開発するための設計上の意味を導き出す。

Automated machine learning (AutoML) is envisioned to make ML techniques accessible to ordinary users. Recent work has investigated the role of humans in enhancing AutoML functionality throughout a standard ML workflow. However, it is also critical to understand how users adopt existing AutoML solutions in complex, real-world settings from a holistic perspective. To fill this gap, this study conducted semi-structured interviews of AutoML users (N=19) focusing on understanding (1) the limitations of AutoML encountered by users in their real-world practices, (2) the strategies users adopt to cope with such limitations, and (3) how the limitations and workarounds impact their use of AutoML. Our findings reveal that users actively exercise user agency to overcome three major challenges arising from customizability, transparency, and privacy. Furthermore, users make cautious decisions about whether and how to apply AutoML on a case-by-case basis. Finally, we derive design implications for developing future AutoML solutions.
翻訳日:2024-04-05 13:33:07 公開日:2024-04-03
# 最大スライスワッサーシュタイン距離に対するシャープ境界

Sharp bounds for max-sliced Wasserstein distances ( http://arxiv.org/abs/2403.00666v5 )

ライセンス: Link先を確認
March T. Boedihardjo, (参考訳) 我々は本質的に、分離可能なヒルベルト空間上の確率測度と$n$サンプルからの経験的分布の間の予想最大スライクな1-ワッサーシュタイン距離に対する上界と下界をマッチングする。 この結果のバナッハ空間バージョンを証明することにより、ユークリッド空間上の対称確率測度$\mu$と、共分散行列の作用素ノルムと$\mu$とのサポートの直径との予想最大スライクな2-ワッサーシュタイン距離に対して、対数係数まで鋭い上限も得られる。

We obtain essentially matching upper and lower bounds for the expected max-sliced 1-Wasserstein distance between a probability measure on a separable Hilbert space and its empirical distribution from $n$ samples. By proving a Banach space version of this result, we also obtain an upper bound, that is sharp up to a log factor, for the expected max-sliced 2-Wasserstein distance between a symmetric probability measure $\mu$ on a Euclidean space and its symmetrized empirical distribution in terms of the operator norm of the covariance matrix of $\mu$ and the diameter of the support of $\mu$.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-03
# 医用ノート自動作成のためのLCMの継続的事前訓練手法

A Continued Pretrained LLM Approach for Automatic Medical Note Generation ( http://arxiv.org/abs/2403.09057v3 )

ライセンス: Link先を確認
Dong Yuan, Eti Rastogi, Gautam Naik, Sree Prasanna Rajagopal, Sagar Goyal, Fen Zhao, Bharath Chintagunta, Jeff Ward, (参考訳) LLMはNLPタスクに革命を起こしています。 しかしながら、GPT-4のような最も先進的なLCMの使用は、ほとんどの専門分野において違法に高価であることが多い。 HEALは13B LLaMA2をベースとしたLLMで, 医療会話用に構築され, 自動切削で測定される。 以上の結果から, HEALはPubMedQAにおいてGPT-4, PMC-LLaMAより78.4\%優れていた。 また、医療用ノートの作成においてGPT-4と同等である。 興味深いことに、HEALはGPT-4とMed-PaLM 2を越え、より正確な医療概念を特定し、正確性と完全性においてヒトの書記やその他の同等のモデルの性能を上回っている。

LLMs are revolutionizing NLP tasks. However, the use of the most advanced LLMs, such as GPT-4, is often prohibitively expensive for most specialized fields. We introduce HEAL, the first continuously trained 13B LLaMA2-based LLM that is purpose-built for medical conversations and measured on automated scribing. Our results demonstrate that HEAL outperforms GPT-4 and PMC-LLaMA in PubMedQA, with an accuracy of 78.4\%. It also achieves parity with GPT-4 in generating medical notes. Remarkably, HEAL surpasses GPT-4 and Med-PaLM 2 in identifying more correct medical concepts and exceeds the performance of human scribes and other comparable models in correctness and completeness.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-03
# 大規模言語モデルにおける長期的事実性

Long-form factuality in large language models ( http://arxiv.org/abs/2403.18802v3 )

ライセンス: Link先を確認
Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Jie Huang, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le, (参考訳) 大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。 まずGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成する。 そこで我々は,LLMエージェントを,探索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。 SAFEは、LLMを使用して、長文の応答を個々の事実の集合に分解し、検索クエリをGoogle検索に送信し、検索結果で事実がサポートされているかどうかを判定する多段階推論プロセスを用いて、各事実の精度を評価する。 さらに,F1スコアを長期的事実性のための集計指標として拡張することを提案する。 そこで我々は,応答(精度)におけるサポート対象事実の割合と,ユーザの好む応答長(リコール)を表すハイパーパラメータに対する提供対象事実の割合のバランスをとる。 実証的に、LLMエージェントがクラウドソースされた人間のアノテーションより優れていることを実証する。約16kの個々の事実に基づいて、SAFEはクラウドソースされた人間のアノテーションと72%の時間で一致し、100の不一致事例のランダムなサブセットでは、SAFEが76%の時間で勝利する。 同時に、SAFEはヒトのアノテーターの20倍以上の安価である。 また、LongFactの13の言語モデル(Gemini, GPT, Claude, PaLM-2)をベンチマークし、より大きな言語モデルが一般的により優れた長文の事実性を実現することを発見した。 LongFact、SAFE、およびすべての実験コードはhttps://github.com/google-deepmind/long-form-factualityで入手できる。

Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can outperform crowdsourced human annotators - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-03
# アフィン雑音変動を考慮した一般化平滑非凸最適化におけるRMSPropとAdamの収束保証

Convergence Guarantees for RMSProp and Adam in Generalized-smooth Non-convex Optimization with Affine Noise Variance ( http://arxiv.org/abs/2404.01436v2 )

ライセンス: Link先を確認
Qi Zhang, Yi Zhou, Shaofeng Zou, (参考訳) 本稿では,非凸最適化におけるRMSPropとAdamの密収束解析を,座標ワイドの一般化された滑らかさとアフィン雑音分散の最も緩和された仮定の下で行った。 我々はまず,適応学習率を持つAdamの特殊なケースであるRMSPropを分析する。 具体的には、適応的更新、非有界勾配推定、リプシッツ定数の依存による課題を解決するために、降下補題の1次項が収束し、その分母が勾配ノルムの関数によって上界となることを示す。 この結果から、適切なハイパーパラメータを持つ RMSProp は $\epsilon$-stationary point に収束し、反復複雑性は $\mathcal O(\epsilon^{-4})$ となる。 次に解析をアダムに一般化し、そこでは勾配と一階運動量とのミスマッチによる追加の挑戦を行う。 我々は、勾配ノルムの関数でもある降下補題において、一階項上の新しい上界を開発する。 適切なハイパーパラメータを持つアダムは$\epsilon$-定常点に収束し、反復複雑性は$\mathcal O(\epsilon^{-4})$となる。 RMSProp と Adam のどちらの複雑性も、 \cite{arjevani2023lower} で確立された複雑性の下限と一致する。

This paper provides the first tight convergence analyses for RMSProp and Adam in non-convex optimization under the most relaxed assumptions of coordinate-wise generalized smoothness and affine noise variance. We first analyze RMSProp, which is a special case of Adam with adaptive learning rates but without first-order momentum. Specifically, to solve the challenges due to dependence among adaptive update, unbounded gradient estimate and Lipschitz constant, we demonstrate that the first-order term in the descent lemma converges and its denominator is upper bounded by a function of gradient norm. Based on this result, we show that RMSProp with proper hyperparameters converges to an $\epsilon$-stationary point with an iteration complexity of $\mathcal O(\epsilon^{-4})$. We then generalize our analysis to Adam, where the additional challenge is due to a mismatch between the gradient and first-order momentum. We develop a new upper bound on the first-order term in the descent lemma, which is also a function of the gradient norm. We show that Adam with proper hyperparameters converges to an $\epsilon$-stationary point with an iteration complexity of $\mathcal O(\epsilon^{-4})$. Our complexity results for both RMSProp and Adam match with the complexity lower bound established in \cite{arjevani2023lower}.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-03
# マイクロサービスは信頼性の低いデータベースに耐えられるか? 障害注入と可視化によるレジリエンステスト

Can My Microservice Tolerate an Unreliable Database? Resilience Testing with Fault Injection and Visualization ( http://arxiv.org/abs/2404.01886v2 )

ライセンス: Link先を確認
Michael Assad, Christopher Meiklejohn, Heather Miller, Stephan Krusche, (参考訳) マイクロサービスアプリケーションでは、データベースやサービス障害時のレジリエンスを確保することが大きな課題になります。 サービス障害に対するレジリエンステストにはいくつかのツールがあるが、特にデータベース障害に対するレジリエンステスト用に設計されたツールには、注目すべきギャップがある。 このギャップを埋めるため、私たちはデータベースクライアントのフォールトインジェクションの拡張を開発し、マイクロサービスアプリケーション内のサービスに既存のフォールトインジェクション用のツールであるFilibusterに統合しました。 我々のツールは、データベースの破壊を体系的にシミュレートし、アプリケーションレジリエンスの包括的なテストと評価を可能にする。 汎用性があり、Redis、Apache Cassandra、CockroachDB、PostgreSQL、DynamoDBなど、SQLおよびNoSQLデータベースシステムの両方をサポートする。 IntelliJ IDEプラグインは、インジェクションされた障害のタイプ、場所、影響に対する視覚的なフィードバックを提供する。 ツールの機能のデモはhttps://youtu.be/bvaUVCy1m1sで見ることができる。

In microservice applications, ensuring resilience during database or service disruptions constitutes a significant challenge. While several tools address resilience testing for service failures, there is a notable gap in tools specifically designed for resilience testing of database failures. To bridge this gap, we have developed an extension for fault injection in database clients, which we integrated into Filibuster, an existing tool for fault injection in services within microservice applications. Our tool systematically simulates database disruptions, thereby enabling comprehensive testing and evaluation of application resilience. It is versatile, supporting a range of both SQL and NoSQL database systems, such as Redis, Apache Cassandra, CockroachDB, PostgreSQL, and DynamoDB. A defining feature is its integration during the development phase, complemented by an IntelliJ IDE plugin, which offers developers visual feedback on the types, locations, and impacts of injected faults. A video demonstration of the tool's capabilities is accessible at https://youtu.be/bvaUVCy1m1s.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-03
# 夜間物体検出における教師なし領域適応の誘導

Cooperative Students: Navigating Unsupervised Domain Adaptation in Nighttime Object Detection ( http://arxiv.org/abs/2404.01988v2 )

ライセンス: Link先を確認
Jicheng Yuan, Anh Le-Tuan, Manfred Hauswirth, Danh Le-Phuoc, (参考訳) 教師なし領域適応 (Unsupervised Domain Adaptation, UDA) は、よく照らされた条件下での物体検出の大幅な進歩を示すが、特に夜間の低可視性シナリオでは、低信号-雑音比 (SNR) 条件での適応性だけでなく、自動車両の信頼性と効率性にも課題が生じる。 この問題に対処するために,グローバルローカル変換(GLT)を革新的に採用した \textbf{Co}operative \textbf{S}tudents (\textbf{CoS}) フレームワークと,日夜のシナリオにおける空間的一貫性を効果的に捉えるプロキシベースのターゲット整合性(PTC)機構を提案する。 これに基づいて、適応IoUインフォームドしきい値(AIT)モジュールをさらに考案し、潜在的な正の見落としを徐々に回避し、ターゲット領域の潜伏情報を豊かにする。 総合的な実験の結果,CoS は低視認性条件下での UDA 性能を本質的に向上させ,現在の最先端技術を超え,それぞれ BDD100K と ShiFT と ACDC のデータセット上で mAP が 3.0 %, 1.9 %,2.5 % の増加を達成した。 コードはhttps://github.com/jichengyuan/Cooperitive_Students.comで入手できる。

Unsupervised Domain Adaptation (UDA) has shown significant advancements in object detection under well-lit conditions; however, its performance degrades notably in low-visibility scenarios, especially at night, posing challenges not only for its adaptability in low signal-to-noise ratio (SNR) conditions but also for the reliability and efficiency of automated vehicles. To address this problem, we propose a \textbf{Co}operative \textbf{S}tudents (\textbf{CoS}) framework that innovatively employs global-local transformations (GLT) and a proxy-based target consistency (PTC) mechanism to capture the spatial consistency in day- and night-time scenarios effectively, and thus bridge the significant domain shift across contexts. Building upon this, we further devise an adaptive IoU-informed thresholding (AIT) module to gradually avoid overlooking potential true positives and enrich the latent information in the target domain. Comprehensive experiments show that CoS essentially enhanced UDA performance in low-visibility conditions and surpasses current state-of-the-art techniques, achieving an increase in mAP of 3.0\%, 1.9\%, and 2.5\% on BDD100K, SHIFT, and ACDC datasets, respectively. Code is available at https://github.com/jichengyuan/Cooperitive_Students.
翻訳日:2024-04-05 11:20:41 公開日:2024-04-03
# ViTamin: ビジョンランゲージ時代のスケーラブルなビジョンモデルの設計

ViTamin: Designing Scalable Vision Models in the Vision-Language Era ( http://arxiv.org/abs/2404.02132v2 )

ライセンス: Link先を確認
Jieneng Chen, Qihang Yu, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen, (参考訳) ビジョン言語モデル(VLM)の最近のブレークスルーは、ビジョンコミュニティで新しいページを始めます。 VLMは、大規模なインターネットイメージテキストペアのトレーニングのおかげで、ImageNetでトレーニングされたモデルと比較して、より強く、より一般化可能な機能埋め込みを提供する。 しかし、VLMの素晴らしい成果にもかかわらず、バニラビジョントランスフォーマー(ViT)がイメージエンコーダのデフォルトの選択肢である。 純粋変換器はテキスト符号化領域においてその有効性を証明するが、画像符号化においても、特に、VLMではほとんど研究されていないImageNetベンチマークにおいて、様々な種類のネットワークが提案されていることを考えると、疑問が残る。 小規模なデータ/モデルスケールのため、ImageNet上でのモデル設計の当初の結論は限定的かつ偏りがある。 本稿では,言語画像事前学習(CLIP)フレームワークを用いて,視覚言語時代の視覚モデルの評価プロトコルを構築することを目的とする。 さまざまなビジョンモデルをベンチマークする包括的な方法を提供し、そのゼロショットのパフォーマンスとスケーラビリティをモデルとトレーニングデータサイズの両方でカバーしています。 この目的のために、VLMに適した新しいビジョンモデルViTaminを紹介する。 ViTamin-Lは、同じ公開データComp-1Bデータセットと同じOpenCLIPトレーニングスキームを使用する場合、ViT-Lを2.0%画像ネットゼロショット精度で大幅に上回っている。 ViTamin-Lは、分類、検索、オープン語彙の検出とセグメンテーション、大規模なマルチモーダルモデルを含む60の様々なベンチマークで有望な結果を示す。 モデルサイズのさらなるスケールアップでは、436Mパラメータしか持たないViTamin-XLが82.9%のImageNetゼロショット精度に達し、10倍のパラメータ(4.4B)を持つEVA-Eによって82.0%を超える。

Recent breakthroughs in vision-language models (VLMs) start a new page in the vision community. The VLMs provide stronger and more generalizable feature embeddings compared to those from ImageNet-pretrained models, thanks to the training on the large-scale Internet image-text pairs. However, despite the amazing achievement from the VLMs, vanilla Vision Transformers (ViTs) remain the default choice for the image encoder. Although pure transformer proves its effectiveness in the text encoding area, it remains questionable whether it is also the case for image encoding, especially considering that various types of networks are proposed on the ImageNet benchmark, which, unfortunately, are rarely studied in VLMs. Due to small data/model scale, the original conclusions of model design on ImageNet can be limited and biased. In this paper, we aim at building an evaluation protocol of vision models in the vision-language era under the contrastive language-image pretraining (CLIP) framework. We provide a comprehensive way to benchmark different vision models, covering their zero-shot performance and scalability in both model and training data sizes. To this end, we introduce ViTamin, a new vision models tailored for VLMs. ViTamin-L significantly outperforms ViT-L by 2.0% ImageNet zero-shot accuracy, when using the same publicly available DataComp-1B dataset and the same OpenCLIP training scheme. ViTamin-L presents promising results on 60 diverse benchmarks, including classification, retrieval, open-vocabulary detection and segmentation, and large multi-modal models. When further scaling up the model size, our ViTamin-XL with only 436M parameters attains 82.9% ImageNet zero-shot accuracy, surpassing 82.0% achieved by EVA-E that has ten times more parameters (4.4B).
翻訳日:2024-04-05 11:20:41 公開日:2024-04-03
# 等尺的マルチ形状マッチング

Isometric Multi-Shape Matching ( http://arxiv.org/abs/2012.02689v2 )

ライセンス: Link先を確認
Maolin Gao, Zorah Lähner, Johan Thunberg, Daniel Cremers, Florian Bernard, (参考訳) 形状の対応を見つけることはコンピュータビジョンとグラフィックスの基本的な問題であり、3D再構成、オブジェクト追跡、スタイル転送など多くのアプリケーションに関係している。 対応法の大半は、同じクラスの複数のインスタンスが利用可能であっても、一対の形状の間の解を見つけることを目的としている。 アイソメトリーは形状対応問題においてしばしば研究されるが、マルチマッチング環境では明確には考慮されていない。 本稿では,等尺的マルチ形状マッチングの新しい最適化式を提案することにより,このギャップを埋める。 定式化を解くのに適した最適化アルゴリズムを提案し,コンバージェンスと複雑性解析を提供する。 提案アルゴリズムは, 確実にサイクル整合性を有するマルチマッチングを実現する。 提案手法の各種データセットにおける優れた性能を実証し,等尺的マルチ形状マッチングにおける新しい最先端技術の設定を行う。

Finding correspondences between shapes is a fundamental problem in computer vision and graphics, which is relevant for many applications, including 3D reconstruction, object tracking, and style transfer. The vast majority of correspondence methods aim to find a solution between pairs of shapes, even if multiple instances of the same class are available. While isometries are often studied in shape correspondence problems, they have not been considered explicitly in the multi-matching setting. This paper closes this gap by proposing a novel optimisation formulation for isometric multi-shape matching. We present a suitable optimisation algorithm for solving our formulation and provide a convergence and complexity analysis. Our algorithm obtains multi-matchings that are by construction provably cycle-consistent. We demonstrate the superior performance of our method on various datasets and set the new state-of-the-art in isometric multi-shape matching.
翻訳日:2024-04-05 00:13:17 公開日:2024-04-03
# 相対論的量子論の確率論的基礎に向けて:曲線時空における1-Body Born Rule

Towards a Probabilistic Foundation of Relativistic Quantum Theory: The One-Body Born Rule in Curved Spacetime ( http://arxiv.org/abs/2012.05212v6 )

ライセンス: Link先を確認
Maik Reddiger, Bill Poirier, (参考訳) 本研究では、量子力学ボルン則の一般化に基づく相対論的量子論の基礎への新しいアプローチを確立し、時空への粒子位置の確率を決定する。 この研究の主要な動機は、量子場理論(QFT)の内部数学的問題を克服することであり、例えば「無限の確率」(再正規化)は、QFTに対する公理的アプローチが数学的だけでなく概念的な性質も持つことを示した。 ここで提示されるアプローチは、構成により確率的であり、幅広い力学モデルに対応でき、ミンコフスキー時空の対称性に頼らず、相対性理論の一般原理を尊重する。 この研究の分析的な部分では、関連する数学的量の滑らかさを仮定して1ドルボディの場合を考える。 これは一般相対論的連続性方程式の理論の特別な場合として特定される。 ボルン則の相対論的一般化への関連するアプローチは、関心の超曲面が空間的であり、時空が大域的に双曲的であると仮定するが、我々は、C. Eckart と J. Ehlers の事前の貢献を用いて、前者の条件が自然に超越条件に置き換わり、後者の条件は時代遅れであることを示す。 我々は、非相対論的アナログから用語を借りて、ラグランジアンとユーレリアの絵と呼ぶ1ドルボディケースの2つの異なる定式化について論じる。 私たちは両方を包括的に扱う。 この研究の数学物理学文学への主な貢献は、ラグランジアン像の発展である。 ラングランジアンの絵は、このアプローチにおいて「時間のプロブレム」にどう対処できるかを示しており、それゆえ、多くの体への一般化の青写真として機能し、身体の数が保存されていない場合(後者の例)を描いている。

In this work we establish a novel approach to the foundations of relativistic quantum theory, which is based on generalizing the quantum-mechanical Born rule for determining particle position probabilities to curved spacetime. A principal motivator for this research has been to overcome internal mathematical problems of quantum field theory (QFT) such as the `problem of infinities' (renormalization), which axiomatic approaches to QFT have shown to be not only of mathematical but also of conceptual nature. The approach presented here is probabilistic by construction, can accommodate a wide array of dynamical models, does not rely on the symmetries of Minkowski spacetime, and respects the general principle of relativity. In the analytical part of this work we consider the $1$-body case under the assumption of smoothness of the mathematical quantities involved. This is identified as a special case of the theory of the general-relativistic continuity equation. While related approaches to the relativistic generalization of the Born rule assume the hypersurfaces of interest to be spacelike and the spacetime to be globally hyperbolic, we employ prior contributions by C. Eckart and J. Ehlers to show that the former condition is naturally replaced by a transversality condition and that the latter one is obsolete. We discuss two distinct formulations of the $1$-body case, which, borrowing terminology from the non-relativistic analog, we term the Lagrangian and Eulerian pictures. We provide a comprehensive treatment of both. The main contribution of this work to the mathematical physics literature is the development of the Lagrangian picture. The Langrangian picture shows how one can address the `problem of time' in this approach and therefore serves as a blueprint for the generalization to many bodies and the case that the number of bodies is not conserved (example given for the latter).
翻訳日:2024-04-05 00:13:17 公開日:2024-04-03
# 絶対因果関係のせん断理論構造

The Sheaf-Theoretic Structure of Definite Causality ( http://arxiv.org/abs/2103.13771v3 )

ライセンス: Link先を確認
Stefano Gogioso, Nicola Pinzani, (参考訳) 我々は、Abramsky と Brandenburger による非局所性のための層理論の枠組みを拡張して、任意の定性因果順序の存在下での運用シナリオに対処することによって、文脈性の研究のギャップを埋める。

We fill a gap in the study of contextuality by extending the sheaf-theoretic framework for non-locality by Abramsky and Brandenburger to deal with operational scenarios in the presence of arbitrary definite causal orders.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-03
# MCL-GAN:複数の特殊識別器を持つ生成的敵対ネットワーク

MCL-GAN: Generative Adversarial Networks with Multiple Specialized Discriminators ( http://arxiv.org/abs/2107.07260v3 )

ライセンス: Link先を確認
Jinyoung Choi, Bohyung Han, (参考訳) 本稿では,複数の識別器を用いた生成対向ネットワークの枠組みを提案し,実際のデータセットをより効果的に表現するために協調する。 提案手法は,実画像に基づくデータ分布に整合したジェネレータの学習を容易にし,慢性モード崩壊問題を緩和する。 複数の選択学習のインスピレーションから、各識別器がデータのサブセットに専門知識を持つことをガイドし、学習例の余分な監督なしに、生成器が潜在データ空間と実データ空間の適切な対応を自動的に見つけられるようにします。 複数の識別器を使用するにもかかわらず、バックボーンネットワークは識別器間で共有され、トレーニングコストの増大は限界である。 各種タスクのための標準データセットにおいて,複数の評価指標を用いたアルゴリズムの有効性を示す。

We propose a framework of generative adversarial networks with multiple discriminators, which collaborate to represent a real dataset more effectively. Our approach facilitates learning a generator consistent with the underlying data distribution based on real images and thus mitigates the chronic mode collapse problem. From the inspiration of multiple choice learning, we guide each discriminator to have expertise in a subset of the entire data and allow the generator to find reasonable correspondences between the latent and real data spaces automatically without extra supervision for training examples. Despite the use of multiple discriminators, the backbone networks are shared across the discriminators and the increase in training cost is marginal. We demonstrate the effectiveness of our algorithm using multiple evaluation metrics in the standard datasets for diverse tasks.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-03
# 複雑な推論タスクのサブゴアル検索

Subgoal Search For Complex Reasoning Tasks ( http://arxiv.org/abs/2108.11204v3 )

ライセンス: Link先を確認
Konrad Czechowski, Tomasz Odrzygóźdź, Marek Zbysiński, Michał Zawalski, Krzysztof Olejnik, Yuhuai Wu, Łukasz Kuciński, Piotr Miłoś, (参考訳) 人間は複雑な推論タスクを1つのアイデアから関連するものに移行するメンタルなプロセスを通じて解くのに優れています。 これに触発されて,サブゴアルサーチ(kSubS)法を提案する。 その鍵となる構成要素は、学習されたサブゴール生成器で、解に近づき、達成可能なサブゴールの多様性を生み出す。 サブゴールの使用は検索スペースを削減し、効率的な計画に適した高レベル検索グラフを誘導する。 本稿では,従来の最優先探索フレームワークと組み合わせたトランスフォーマーベースのサブゴールモジュールを用いてkSubSを実装した。 我々は,2つのパズルゲーム,ソコバンとルービックキューブ,不等式証明ベンチマークINTという,3つの挑戦的な領域において,$k$-第2のステップを先取りするという単純なアプローチが驚くほど効率的であることを示す。 kSubSは、控えめな計算予算内でINTの最先端を含む強力な結果を得る。

Humans excel in solving complex reasoning tasks through a mental process of moving from one idea to a related one. Inspired by this, we propose Subgoal Search (kSubS) method. Its key component is a learned subgoal generator that produces a diversity of subgoals that are both achievable and closer to the solution. Using subgoals reduces the search space and induces a high-level search graph suitable for efficient planning. In this paper, we implement kSubS using a transformer-based subgoal module coupled with the classical best-first search framework. We show that a simple approach of generating $k$-th step ahead subgoals is surprisingly efficient on three challenging domains: two popular puzzle games, Sokoban and the Rubik's Cube, and an inequality proving benchmark INT. kSubS achieves strong results including state-of-the-art on INT within a modest computational budget.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-03
# 合成コミュニケーションの創発におけるノイズと誘導的ビアーゼの必要性の触媒的役割

Catalytic Role Of Noise And Necessity Of Inductive Biases In The Emergence Of Compositional Communication ( http://arxiv.org/abs/2111.06464v2 )

ライセンス: Link先を確認
Łukasz Kuciński, Tomasz Korbak, Paweł Kołodziej, Piotr Miłoś, (参考訳) 複雑な信号が単純な部分の組合せとして表現される場合、通信は構成的である。 本稿では,学習フレームワークとデータの両方に対する帰納的バイアスが,構成的コミュニケーションの発達に必要であることを示す。 さらに,エージェントがノイズチャネル上で通信するシグナリングゲームにおいて,構成性が自然に発生することを示す。 モデルとデータに依存する様々なノイズレベルが、実際に構成性を促進することを実験的に確認する。 最後に、この依存関係について包括的な研究を行い、最近研究された構成性指標(地形的類似性、紛争数、文脈独立性)の観点で報告する。

Communication is compositional if complex signals can be represented as a combination of simpler subparts. In this paper, we theoretically show that inductive biases on both the training framework and the data are needed to develop a compositional communication. Moreover, we prove that compositionality spontaneously arises in the signaling games, where agents communicate over a noisy channel. We experimentally confirm that a range of noise levels, which depends on the model and the data, indeed promotes compositionality. Finally, we provide a comprehensive study of this dependence and report results in terms of recently studied compositionality metrics: topographical similarity, conflict count, and context independence.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-03
# マルチエージェント強化学習のためのオフポリティ補正

Off-Policy Correction For Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2111.11229v3 )

ライセンス: Link先を確認
Michał Zawalski, Błażej Osiński, Henryk Michalewski, Piotr Miłoś, (参考訳) マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。 単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。 そこで本研究では,V-Trace を MARL 設定に拡張した,新たなアクタ批判アルゴリズム MA-Trace を提案する。 アルゴリズムの主な利点は、マルチワーカー環境でのスケーラビリティである。 この目的のためにMA-Traceは、重要サンプリングをオフポリティ補正法として利用し、トレーニングの質に影響を与えずに計算を分散することができる。 さらに、我々のアルゴリズムは理論的に基礎付けられており、収束を保証する固定点定理を証明している。 我々は,このアルゴリズムをマルチエージェントアルゴリズムの標準ベンチマークであるStarCraft Multi-Agent Challengeで広く評価する。 MA-Traceは全てのタスクで高いパフォーマンスを達成し、一部のタスクでは最先端の結果を上回っている。

Multi-agent reinforcement learning (MARL) provides a framework for problems involving multiple interacting agents. Despite apparent similarity to the single-agent case, multi-agent problems are often harder to train and analyze theoretically. In this work, we propose MA-Trace, a new on-policy actor-critic algorithm, which extends V-Trace to the MARL setting. The key advantage of our algorithm is its high scalability in a multi-worker setting. To this end, MA-Trace utilizes importance sampling as an off-policy correction method, which allows distributing the computations with no impact on the quality of training. Furthermore, our algorithm is theoretically grounded - we prove a fixed-point theorem that guarantees convergence. We evaluate the algorithm extensively on the StarCraft Multi-Agent Challenge, a standard benchmark for multi-agent algorithms. MA-Trace achieves high performance on all its tasks and exceeds state-of-the-art results on some of them.
翻訳日:2024-04-05 00:07:06 公開日:2024-04-03
# 顔面行動単位認識のための因果的介入

Causal Intervention for Subject-Deconfounded Facial Action Unit Recognition ( http://arxiv.org/abs/2204.07935v2 )

ライセンス: Link先を確認
Yingjie Chen, Diqi Chen, Tao Wang, Yizhou Wang, Yun Liang, (参考訳) データ分布が被験者によって異なる理由から、AU認識は依然として困難である。 本稿では,主観的不変な顔行動単位認識のための因果推論フレームワークを提案する。 AU認識タスクに存在する因果効果を説明するために, 顔画像, 被写体, 潜在AU意味関係, 推定AU発生確率を構造因果モデルを用いて定式化する。 このような因果ダイアグラムを構築することにより、変数間の因果効果を明確にし、因果ダイアグラムの共創者 \emph{Subject} を分解するプラグイン因果介入モジュール CIS を提案する。 BP4D と DISFA という2つのAUベンチマークデータセットを用いて行った大規模な実験は、我々の CIS の有効性を示し、CISNet を挿入したモデルは最先端の性能を達成した。

Subject-invariant facial action unit (AU) recognition remains challenging for the reason that the data distribution varies among subjects. In this paper, we propose a causal inference framework for subject-invariant facial action unit recognition. To illustrate the causal effect existing in AU recognition task, we formulate the causalities among facial images, subjects, latent AU semantic relations, and estimated AU occurrence probabilities via a structural causal model. By constructing such a causal diagram, we clarify the causal effect among variables and propose a plug-in causal intervention module, CIS, to deconfound the confounder \emph{Subject} in the causal diagram. Extensive experiments conducted on two commonly used AU benchmark datasets, BP4D and DISFA, show the effectiveness of our CIS, and the model with CIS inserted, CISNet, has achieved state-of-the-art performance.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-03
# 高速かつ高精度:適応的な部分探索による計画水平の調整

Fast and Precise: Adjusting Planning Horizon with Adaptive Subgoal Search ( http://arxiv.org/abs/2206.00702v9 )

ライセンス: Link先を確認
Michał Zawalski, Michał Tyrolski, Konrad Czechowski, Tomasz Odrzygóźdź, Damian Stachura, Piotr Piękos, Yuhuai Wu, Łukasz Kuciński, Piotr Miłoś, (参考訳) 複雑な推論問題は、優れた行動計画を決定するのに必要な計算コストが異なる状態を含む。 この特性を利用して,アダプティブサブゴールサーチ (AdaSubS) を提案する。 この目的のために、AdaSubSは異なる距離で多様なサブゴールの集合を生成する。 検証機構を用いて、到達不能なサブゴールを迅速にフィルタリングし、さらに実現可能なサブゴールに集中できるようにする。 このように、AdaSubSは、より長いサブゴールによる計画の効率と、より短いサブゴールによるきめ細かい制御の恩恵を受けます。 我々は、AdaSubSが3つの複雑な推論タスク(Sokoban, the Rubik's Cube, and inequality proving benchmark INT)において階層的計画アルゴリズムを大幅に上回っていることを示す。

Complex reasoning problems contain states that vary in the computational cost required to determine a good action plan. Taking advantage of this property, we propose Adaptive Subgoal Search (AdaSubS), a search method that adaptively adjusts the planning horizon. To this end, AdaSubS generates diverse sets of subgoals at different distances. A verification mechanism is employed to filter out unreachable subgoals swiftly, allowing to focus on feasible further subgoals. In this way, AdaSubS benefits from the efficiency of planning with longer subgoals and the fine control with the shorter ones, and thus scales well to difficult planning problems. We show that AdaSubS significantly surpasses hierarchical planning algorithms on three complex reasoning tasks: Sokoban, the Rubik's Cube, and inequality proving benchmark INT.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-03
# 256KBメモリによるオンデバイストレーニング

On-Device Training Under 256KB Memory ( http://arxiv.org/abs/2206.15472v4 )

ライセンス: Link先を確認
Ji Lin, Ligeng Zhu, Wei-Ming Chen, Wei-Chen Wang, Chuang Gan, Song Han, (参考訳) オンデバイストレーニングでは、事前トレーニングされたモデルを微調整することで、センサーから収集した新しいデータに適応することができる。 ユーザは、データをクラウドに転送することなく、プライバシを保護することなく、カスタマイズされたAIモデルのメリットを享受できる。 しかし、トレーニングメモリ消費は、小さなメモリリソースを持つIoTデバイスでは禁じられている。 本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。 オンデバイストレーニングには,1)低ビット精度と正規化の欠如により,ニューラルネットワークの量子化グラフの最適化が困難であること,2)ハードウェアリソースの制限によりバックプロパゲーションが完全に実現できないこと,の2つの課題がある。 最適化の難しさに対処するため,グラデーションスケールの校正と8ビット量子化トレーニングの安定化を行うQuantization-Aware Scalingを提案する。 メモリフットプリントを削減するために,重要でないレイヤやサブテンソルの勾配計算を省略するスパース更新を提案する。 アルゴリズムの革新は、軽量なトレーニングシステムであるTiny Training Engineによって実装されている。 私たちのフレームワークは、PyTorchとTensorFlowのメモリの1/1000未満を使用して、256KBのSRAMと1MBのフラッシュで畳み込みニューラルネットワークの小さなオンデバイストレーニングを可能にする最初のソリューションです。 我々の研究は、IoTデバイスが推論を行うだけでなく、デバイス上での生涯学習のために新しいデータに継続的に適応することを可能にする。 ビデオデモは以下の通り。

On-device training enables the model to adapt to new data collected from the sensors by fine-tuning a pre-trained model. Users can benefit from customized AI models without having to transfer the data to the cloud, protecting the privacy. However, the training memory consumption is prohibitive for IoT devices that have tiny memory resources. We propose an algorithm-system co-design framework to make on-device training possible with only 256KB of memory. On-device training faces two unique challenges: (1) the quantized graphs of neural networks are hard to optimize due to low bit-precision and the lack of normalization; (2) the limited hardware resource does not allow full back-propagation. To cope with the optimization difficulty, we propose Quantization-Aware Scaling to calibrate the gradient scales and stabilize 8-bit quantized training. To reduce the memory footprint, we propose Sparse Update to skip the gradient computation of less important layers and sub-tensors. The algorithm innovation is implemented by a lightweight training system, Tiny Training Engine, which prunes the backward computation graph to support sparse updates and offload the runtime auto-differentiation to compile time. Our framework is the first solution to enable tiny on-device training of convolutional neural networks under 256KB SRAM and 1MB Flash without auxiliary memory, using less than 1/1000 of the memory of PyTorch and TensorFlow while matching the accuracy on tinyML application VWW. Our study enables IoT devices not only to perform inference but also to continuously adapt to new data for on-device lifelong learning. A video demo can be found here: https://youtu.be/0pUFZYdoMY8.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-03
# 強化サンプリングシミュレーションによる集合変数の重み付きマニフォールド学習

Reweighted Manifold Learning of Collective Variables from Enhanced Sampling Simulations ( http://arxiv.org/abs/2207.14554v2 )

ライセンス: Link先を確認
Jakub Rydzewski, Ming Chen, Tushar K. Ghosh, Omar Valsson, (参考訳) 強化されたサンプリング法は、サンプリング問題に起因する力学系の高次元構成空間を網羅的にサンプリングできない、計算物理学や化学において不可欠である。 このような強化されたサンプリング手法のクラスは、少数の遅い自由度、いわゆる集合変数(CV)を特定し、これらのCVに沿ってサンプリングを強化することで機能する。 サンプリングを分析・駆動するためにCVを選択することは簡単ではなく、物理的および化学的直観に依存していることが多い。 標準シミュレーションから直接CVを推定するために多様体学習を用いてこの問題を日常的に回避するが、そのような手法は、学習された多様体の幾何学と密度が偏っているため、強化されたサンプリングシミュレーションから低次元多様体への写像を与えることはできない。 本稿では、この重要な問題に対処し、偏りのある確率分布から学習データセットがサンプリングされたことを考慮し、多様体学習のための異方性拡散マップに基づく一般的な再重み付けフレームワークを提供する。 高次元試料間の遷移確率を記述するマルコフ連鎖の構成に基づく多様体学習法を検討する。 この枠組みは平衡密度を正確に記述したCVを生じるバイアス効果を逆転させることを示す。 この進歩により、強化サンプリングシミュレーションにより生成されたデータから直接多様体学習を用いた低次元CVの構築が可能となった。 フレームワークをリウェイトされた多様体学習と呼びます。 標準および改良されたサンプリングシミュレーションから得られたデータについて,多くの多様体学習手法で利用できることを示す。

Enhanced sampling methods are indispensable in computational physics and chemistry, where atomistic simulations cannot exhaustively sample the high-dimensional configuration space of dynamical systems due to the sampling problem. A class of such enhanced sampling methods works by identifying a few slow degrees of freedom, termed collective variables (CVs), and enhancing the sampling along these CVs. Selecting CVs to analyze and drive the sampling is not trivial and often relies on physical and chemical intuition. Despite routinely circumventing this issue using manifold learning to estimate CVs directly from standard simulations, such methods cannot provide mappings to a low-dimensional manifold from enhanced sampling simulations as the geometry and density of the learned manifold are biased. Here, we address this crucial issue and provide a general reweighting framework based on anisotropic diffusion maps for manifold learning that takes into account that the learning data set is sampled from a biased probability distribution. We consider manifold learning methods based on constructing a Markov chain describing transition probabilities between high-dimensional samples. We show that our framework reverts the biasing effect yielding CVs that correctly describe the equilibrium density. This advancement enables the construction of low-dimensional CVs using manifold learning directly from data generated by enhanced sampling simulations. We call our framework reweighted manifold learning. We show that it can be used in many manifold learning techniques on data from both standard and enhanced sampling simulations.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-03
# 量子ガレリンビリヤードによるπ$の補聴器

Hear $π$ from Quantum Galperin Billiards ( http://arxiv.org/abs/2208.00426v2 )

ライセンス: Link先を確認
Yin Cai, Fu-Lin Zhang, (参考訳) ガルペリンは、2つのビリヤード球と硬い壁の衝突を数えて、$\pi $の数字を学ぶ興味深い方法を導入した。 本稿では、ガレリンビリヤードの2つの量子バージョンについて研究する。 量子モデルの位相シフトにおいて、$\pi $の桁が観測できることが示されている。

Galperin introduced an interesting method to learn the digits of $\pi $ by counting the collisions of two billiard balls and a hard wall. This paper studies two quantum versions of the Galperin billiards. It is shown that the digits of $\pi $ can be observed in the phase shifts of the quantum models.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-03
# フェデレーション学習における大規模事前学習モデルの実現に向けたコミュニケーション制約の検証

Conquering the Communication Constraints to Enable Large Pre-Trained Models in Federated Learning ( http://arxiv.org/abs/2210.01708v3 )

ライセンス: Link先を確認
Guangyu Sun, Umar Khalid, Matias Mendieta, Taojiannan Yang, Chen Chen, (参考訳) フェデレートラーニング(FL)は、ローカルデバイス上の生データに一元的にアクセスすることなく、モデルの協調的なトレーニングを可能にするための、有望なパラダイムとして登場した。 典型的なFLパラダイム(例えば、FedAvg)では、モデルの重みが各ラウンドのサーバから参加するクライアントに送信されます。 近年,小規模な事前学習モデルの使用は,フェデレート学習の最適化と収束性向上に有効であることが示されている。 しかし、最近の最先端の事前訓練モデルには、より多くのパラメーターを持つ能力が増している。 従来のFLでは、膨大なモデル重みの共有は、特により有能なモデルを採用する場合、システムに多大な通信負担を迅速に課すことができる。 FLにおけるこれらの強力で容易に利用できる事前学習モデルが、通信負荷を同時に軽減しつつ優れた性能を達成するためのソリューションを見つけることができるだろうか? そこで本研究では,フェデレート学習におけるパラメータ効率向上のための微調整手法について検討し,新たなフレームワークであるFedPEFTを提案する。 具体的には,FedPEFTの性能を,クライアントの安定性,データ分散,プライバシ設定の違いによって体系的に評価する。 モデル重みのごく一部を局所的にチューニングし、グローバルに共有することで、幅広いフェデレート学習シナリオにおいて競争力や性能を保ちながら、全体の通信オーバーヘッドを大幅に削減し、実用的で効果的なフェデレーションシステムのための新しいパラダイムに関する洞察を提供することができる。

Federated learning (FL) has emerged as a promising paradigm for enabling the collaborative training of models without centralized access to the raw data on local devices. In the typical FL paradigm (e.g., FedAvg), model weights are sent to and from the server each round to participating clients. Recently, the use of small pre-trained models has been shown effective in federated learning optimization and improving convergence. However, recent state-of-the-art pre-trained models are getting more capable but also have more parameters. In conventional FL, sharing the enormous model weights can quickly put a massive communication burden on the system, especially if more capable models are employed. Can we find a solution to enable those strong and readily-available pre-trained models in FL to achieve excellent performance while simultaneously reducing the communication burden? To this end, we investigate the use of parameter-efficient fine-tuning in federated learning and thus introduce a new framework: FedPEFT. Specifically, we systemically evaluate the performance of FedPEFT across a variety of client stability, data distribution, and differential privacy settings. By only locally tuning and globally sharing a small portion of the model weights, significant reductions in the total communication overhead can be achieved while maintaining competitive or even better performance in a wide range of federated learning scenarios, providing insight into a new paradigm for practical and effective federated systems.
翻訳日:2024-04-04 23:57:15 公開日:2024-04-03
# 深層強化学習を用いた適応型大規模近傍探索のオンライン制御

Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning ( http://arxiv.org/abs/2211.00759v3 )

ライセンス: Link先を確認
Robbert Reijnen, Yingqian Zhang, Hoong Chuin Lau, Zaharah Bukhsh, (参考訳) Adaptive Large Neighborhood Search (ALNS)アルゴリズムは、組合せ最適化問題(COP)の解決にかなりの成功を収めている。 それでも、ALNSのパフォーマンスは、複雑なリソース集約的なタスクとして知られている選択と受け入れパラメータの適切な設定に依存している。 そこで我々は,DR-ALNS(Deep Reinforcement Learning, DRL)ベースのアプローチを導入し,演算子を選択し,パラメータを調整し,検索全体を通して受け入れ基準を制御する。 提案手法は,探索の状態に基づいて,次回の繰り返しに対してALNSを設定し,与えられた最適化問題に対してより効率的な解を求めることを目的としている。 In this method on a Orienteering problem with stochastic weights and time window, as presented in an IJCAI competition。 その結果,本手法はバニラALNSより優れ,ALNSはベイジアン最適化と2つの最先端DRLアプローチに優れており,より少ないトレーニング観察で実現できた。 さらに,DR-ALNS法の優れた特性として,異なるルーティング問題の解法に容易に適応でき,学習されたポリシは様々なインスタンスサイズで一貫して良好に動作し,これらのポリシは異なる問題変種に直接適用可能であることを示す。

The Adaptive Large Neighborhood Search (ALNS) algorithm has shown considerable success in solving combinatorial optimization problems (COPs). Nonetheless, the performance of ALNS relies on the proper configuration of its selection and acceptance parameters, which is known to be a complex and resource-intensive task. To address this, we introduce a Deep Reinforcement Learning (DRL) based approach called DR-ALNS that selects operators, adjusts parameters, and controls the acceptance criterion throughout the search. The proposed method aims to learn, based on the state of the search, to configure ALNS for the next iteration to yield more effective solutions for the given optimization problem. We evaluate the proposed method on an orienteering problem with stochastic weights and time windows, as presented in an IJCAI competition. The results show that our approach outperforms vanilla ALNS, ALNS tuned with Bayesian optimization, and two state-of-the-art DRL approaches that were the winning methods of the competition, achieving this with significantly fewer training observations. Furthermore, we demonstrate several good properties of the proposed DR-ALNS method: it is easily adapted to solve different routing problems, its learned policies perform consistently well across various instance sizes, and these policies can be directly applied to different problem variants.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# DriftRec: ブラインドJPEG復元に拡散モデルを適用する

DriftRec: Adapting diffusion models to blind JPEG restoration ( http://arxiv.org/abs/2211.06757v3 )

ライセンス: Link先を確認
Simon Welker, Henry N. Chapman, Timo Gerkmann, (参考訳) 本研究では,拡散モデルの高忠実度生成能力を利用して,高圧縮レベルでのブラインドJPEG復元を解く。 本稿では,拡散モデルの前方確率微分方程式のエレガントな修正法を提案する。 DriftRecと、同じネットワークアーキテクチャとJPEG復元のための最先端技術との回帰ベースラインを比較し、この手法は、ぼやけた画像を生成する他の手法の傾向を回避でき、クリーンな画像の分布をより忠実に復元できることを示す。 このために、クリーン/破損したイメージペアのデータセットのみが必要であり、汚職操作に関する知識は必要ないため、他の復元作業にも適用可能である。 他の条件付き拡散モデルや非条件付き拡散モデルとは対照的に、きれいな画像と破損した画像の分布が拡散モデルにおける逆過程の通常のガウス的過程よりもずっと近いという考え方を利用する。 したがって,本手法では低レベルの付加雑音しか必要とせず,さらなる最適化を行なわなくても比較的少ないサンプリングステップが必要である。 DriftRecは、トレーニング中にそのような例に遭遇することなく、オンラインで見いだされたJPEGのアンアライメント・ダブルJPEG圧縮やブラインド復元といった現実的で困難なシナリオに自然に一般化していることを示す。

In this work, we utilize the high-fidelity generation abilities of diffusion models to solve blind JPEG restoration at high compression levels. We propose an elegant modification of the forward stochastic differential equation of diffusion models to adapt them to this restoration task and name our method DriftRec. Comparing DriftRec against an $L_2$ regression baseline with the same network architecture and state-of-the-art techniques for JPEG restoration, we show that our approach can escape the tendency of other methods to generate blurry images, and recovers the distribution of clean images significantly more faithfully. For this, only a dataset of clean/corrupted image pairs and no knowledge about the corruption operation is required, enabling wider applicability to other restoration tasks. In contrast to other conditional and unconditional diffusion models, we utilize the idea that the distributions of clean and corrupted images are much closer to each other than each is to the usual Gaussian prior of the reverse process in diffusion models. Our approach therefore requires only low levels of added noise and needs comparatively few sampling steps even without further optimizations. We show that DriftRec naturally generalizes to realistic and difficult scenarios such as unaligned double JPEG compression and blind restoration of JPEGs found online, without having encountered such examples during training.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# Shapley Curves:スムースな視点

Shapley Curves: A Smoothing Perspective ( http://arxiv.org/abs/2211.13289v5 )

ライセンス: Link先を確認
Ratmir Miftachov, Georg Keilbar, Wolfgang Karl Härdle, (参考訳) 本稿では,非パラメトリック(あるいは平滑化)の観点から,Shapley値の限定的な統計的理解を変数重要度として補足する。 我々は,条件付き期待関数と共変量の分布から決定される真の変数の重要度を測定するために,集団レベル \textit{Shapley curves を導入する。 推定値を定義した上で、2つの主要な推定戦略の一般的な条件の下で、最小収束率と漸近正規性(英語版)を導出する。 有限サンプル推定のために,Shapley曲線の推定における下位項の取得に適したワイルドブートストラップ法を提案する。 数値解析により理論的知見が確認され,車両価格の決定要因を実験的に分析する。

This paper fills the limited statistical understanding of Shapley values as a variable importance measure from a nonparametric (or smoothing) perspective. We introduce population-level \textit{Shapley curves} to measure the true variable importance, determined by the conditional expectation function and the distribution of covariates. Having defined the estimand, we derive minimax convergence rates and asymptotic normality under general conditions for the two leading estimation strategies. For finite sample inference, we propose a novel version of the wild bootstrap procedure tailored for capturing lower-order terms in the estimation of Shapley curves. Numerical studies confirm our theoretical findings, and an empirical application analyzes the determining factors of vehicle prices.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# $\nabla$を信頼する: 因果発見のためのグラディエントベースのインターベンションターゲット

Trust Your $\nabla$: Gradient-based Intervention Targeting for Causal Discovery ( http://arxiv.org/abs/2211.13715v5 )

ライセンス: Link先を確認
Mateusz Olko, Michał Zając, Aleksandra Nowak, Nino Scherrer, Yashas Annadani, Stefan Bauer, Łukasz Kuciński, Piotr Miłoś, (参考訳) データから因果構造を推定することは、科学における基本的な重要性の課題である。 観測データはしばしばシステムの因果構造をユニークに識別するには不十分である。 介入(実験)を行うことで識別性が向上するが、そのようなサンプルは通常、入手が困難で高価である。 したがって、因果発見のための実験的な設計手法は、最も情報性の高い介入目標を推定することによって介入数を最小化することを目的としている。 本稿では、勾配に基づく因果探索フレームワークの勾配推定器を信頼し、介入獲得関数の信号を提供する、新しいグラディエントベース干渉目標法(GIT)を提案する。 我々は、シミュレーションおよび実世界のデータセットで広範な実験を行い、GITが低データ体制でそれらを上回り、競争ベースラインと同等に機能することを実証した。

Inferring causal structure from data is a challenging task of fundamental importance in science. Observational data are often insufficient to identify a system's causal structure uniquely. While conducting interventions (i.e., experiments) can improve the identifiability, such samples are usually challenging and expensive to obtain. Hence, experimental design approaches for causal discovery aim to minimize the number of interventions by estimating the most informative intervention target. In this work, we propose a novel Gradient-based Intervention Targeting method, abbreviated GIT, that 'trusts' the gradient estimator of a gradient-based causal discovery framework to provide signals for the intervention acquisition function. We provide extensive experiments in simulated and real-world datasets and demonstrate that GIT performs on par with competitive baselines, surpassing them in the low-data regime.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# 確率分布の離散化のための量子アルゴリズムフレームワークとそのレニーエントロピー推定への応用

A Quantum Algorithm Framework for Discrete Probability Distributions with Applications to Rényi Entropy Estimation ( http://arxiv.org/abs/2212.01571v2 )

ライセンス: Link先を確認
Xinzhao Wang, Shengyu Zhang, Tongyang Li, (参考訳) 統計特性の推定は統計学と計算機科学の基本である。 本稿では、離散確率分布の性質を推定するための統一量子アルゴリズムフレームワークを提案し、R'enyiエントロピーを具体例として推定する。 特に、$n$-次元量子状態 $\sum_{i=1}^{n}\sqrt{p_{i}}|i\rangle$, for $\alpha>1$ and $0<\alpha<1$, our algorithm framework estimates $\alpha$-R\enyi entropy $H_{\alpha}(p)$ to in additionitive error $\epsilon$ with probability at $2/3$ using $\widetilde{\mathcal{O}}(n^{1-\frac{1}{2\alpha}}/\epsilon + \sqrt{n}/\epsilon^{1+\frac{1}{2\alpha}}) $\widetilde{\mathcal{O}}(n^{1-\epsilon{n}/\epsilon + \sqrt{n}/\epsilon$1+\epsilon $\epsilon$, $\widetilde{\mathcal{1}{2\epsilon{O}}(1+\epsilon{1+\epsilon{2\alpha}}) を準備する量子オラクルが与えられる。 これにより$\epsilon$の最もよく知られた依存が向上し、$n$と$/\epsilon$のジョイント依存が向上する。 技術的には、我々の量子アルゴリズムは量子特異値変換、量子アニール、可変時間振幅推定を組み合わせたものである。 アルゴリズムフレームワークは一般的な関心事であり、幅広い応用があると考えている。

Estimating statistical properties is fundamental in statistics and computer science. In this paper, we propose a unified quantum algorithm framework for estimating properties of discrete probability distributions, with estimating R\'enyi entropies as specific examples. In particular, given a quantum oracle that prepares an $n$-dimensional quantum state $\sum_{i=1}^{n}\sqrt{p_{i}}|i\rangle$, for $\alpha>1$ and $0<\alpha<1$, our algorithm framework estimates $\alpha$-R\'enyi entropy $H_{\alpha}(p)$ to within additive error $\epsilon$ with probability at least $2/3$ using $\widetilde{\mathcal{O}}(n^{1-\frac{1}{2\alpha}}/\epsilon + \sqrt{n}/\epsilon^{1+\frac{1}{2\alpha}})$ and $\widetilde{\mathcal{O}}(n^{\frac{1}{2\alpha}}/\epsilon^{1+\frac{1}{2\alpha}})$ queries, respectively. This improves the best known dependence in $\epsilon$ as well as the joint dependence between $n$ and $1/\epsilon$. Technically, our quantum algorithms combine quantum singular value transformation, quantum annealing, and variable-time amplitude estimation. We believe that our algorithm framework is of general interest and has wide applications.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# 中性原子量子プロセッサの金融リスク管理

Financial Risk Management on a Neutral Atom Quantum Processor ( http://arxiv.org/abs/2212.03223v2 )

ライセンス: Link先を確認
Lucas Leclerc, Luis Ortiz-Guitierrez, Sebastian Grijalva, Boris Albrecht, Julia R. K. Cline, Vincent E. Elfving, Adrien Signoles, Loïc Henriet, Gianni Del Bimbo, Usman Ayub Sheikh, Maitree Shah, Luc Andrea, Faysal Ishtiaq, Andoni Duarte, Samuel Mugel, Irene Caceres, Michel Kurek, Roman Orus, Achraf Seddik, Oumaima Hammammi, Hacene Isselnane, Didier M'tamon, (参考訳) 金融業界で収集された大規模なデータセットを扱う機械学習モデルは、実行に高価なブラックボックスになることが多い。 量子コンピューティングのパラダイムは、古典的なアルゴリズムと組み合わせた新しい最適化技術が、競争力があり、より速く、より解釈可能なモデルをもたらすことを示唆している。 本研究では,金融リスク管理分野における信用格付け低下の予測のための量子化機械学習ソリューションを提案する。 我々は、このソリューションを、実生活データセット上で最大60キュービットの中立原子量子処理ユニットに実装する。 我々は、最先端のランダムフォレストベンチマークに対する競争性能を報告し、一方、我々のモデルは、より良い解釈可能性と同等のトレーニング時間を達成する。 テンソルネットワークを用いた数値シミュレーションにより,提案手法の短期的検証における性能向上について検討する。

Machine Learning models capable of handling the large datasets collected in the financial world can often become black boxes expensive to run. The quantum computing paradigm suggests new optimization techniques, that combined with classical algorithms, may deliver competitive, faster and more interpretable models. In this work we propose a quantum-enhanced machine learning solution for the prediction of credit rating downgrades, also known as fallen-angels forecasting in the financial risk management field. We implement this solution on a neutral atom Quantum Processing Unit with up to 60 qubits on a real-life dataset. We report competitive performances against the state-of-the-art Random Forest benchmark whilst our model achieves better interpretability and comparable training times. We examine how to improve performance in the near-term validating our ideas with Tensor Networks-based numerical simulations.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# ReQuSim: 短期量子リピータを忠実にシミュレートする

ReQuSim: Faithfully simulating near-term quantum repeaters ( http://arxiv.org/abs/2212.03896v3 )

ライセンス: Link先を確認
Julius Wallnöfer, Frederik Hahn, Fabian Wiesner, Nathan Walk, Jens Eisert, (参考訳) 量子リピータは、遠距離で絡み合うために欠かせない存在として長い間確立されてきた。 その結果、実験的な実現は量子通信における中核的な課題となっている。 しかし、現実的で短期的な実験的なセットアップの実装の詳細については、多くのオープンな質問がある。 本稿では、現実的なリピータプロトコルの性能を評価するために、ロスを忠実に含む量子リピータのための総合的なモンテカルロベースのシミュレーションプラットフォームReQuSimを紹介し、時間依存ノイズを伴うメモリなどの幅広い不完全性をモデル化する。 私たちのプラットフォームは、既知の分析結果を超えている量子リピータのセットアップと戦略の分析を可能にします。 本稿では, 絡み合いの浄化や複数のリピータ局の利用など, 性能向上のための戦略の組み合わせに着目し, それらの間に複雑な関係があることを実証する。 我々は、量子インターネットへの貢献を目的とした複雑な量子通信プロトコルをモデル化するために、我々のような数値ツールが不可欠であることを強調する。

Quantum repeaters have long been established to be essential for distributing entanglement over long distances. Consequently, their experimental realization constitutes a core challenge of quantum communication. However, there are numerous open questions about implementation details for realistic, near-term experimental setups. In order to assess the performance of realistic repeater protocols, we here present ReQuSim, a comprehensive Monte-Carlo based simulation platform for quantum repeaters that faithfully includes loss and models a wide range of imperfections such as memories with time-dependent noise. Our platform allows us to perform an analysis for quantum repeater setups and strategies that go far beyond known analytic results: This refers to being able to both capture more realistic noise models and analyse more complex repeater strategies. We present a number of findings centered around the combination of strategies for improving performance, such as entanglement purification and the use of multiple repeater stations, and demonstrate that there exist complex relationships between them. We stress that numerical tools such as ours are essential to model complex quantum communication protocols aimed at contributing to the quantum internet.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# マインド・ザ・エッジ(Mind the Edge) - わずかに監督された単眼深度推定における深度エッジの精製

Mind The Edge: Refining Depth Edges in Sparsely-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2212.05315v3 )

ライセンス: Link先を確認
Lior Talker, Aviad Cohen, Erez Yosef, Alexandra Dana, Michael Dinerstein, (参考訳) 単眼深度推定(MDE)はコンピュータビジョンの基本的な問題であり、多くの応用がある。 近年,LIDARを教師する手法は,屋外シーンにおける画素毎の深度精度が著しく向上している。 しかし、一般的には、深度不連続性(deep discontinuities)、すなわち深度に依存しないアプリケーションの性能を阻害する深度不連続性(deep Decontinuities)の近さに重大な誤差がある。 深度エッジの位置の直接監視は、通常、粗いLIDARベースのシーンでは利用できないため、MDEモデルに正確な深度エッジを作成するよう促すことは簡単ではない。 我々の知る限り、この論文はLIDAR監督シーンの奥行き問題に対処する最初の試みである。 本研究は,高度に教師付きされた合成データから深度エッジの位置を学習し,それを用いて深度エッジの監視を行うことを提案する。 アプローチを定量的に評価するため,LIDARに基づくシーンでは深度エッジGTが欠如しているため,KITTIとDDADデータセットのサブセットを手動で注釈付けした。 いくつかの挑戦的データセットに対して,画素ごとの深度精度を比較検討することにより,深度エッジの精度が著しく向上したことを示す。 コードとデータセットは \url{https://github.com/liortalker/MindTheEdge} で入手できる。

Monocular Depth Estimation (MDE) is a fundamental problem in computer vision with numerous applications. Recently, LIDAR-supervised methods have achieved remarkable per-pixel depth accuracy in outdoor scenes. However, significant errors are typically found in the proximity of depth discontinuities, i.e., depth edges, which often hinder the performance of depth-dependent applications that are sensitive to such inaccuracies, e.g., novel view synthesis and augmented reality. Since direct supervision for the location of depth edges is typically unavailable in sparse LIDAR-based scenes, encouraging the MDE model to produce correct depth edges is not straightforward. To the best of our knowledge this paper is the first attempt to address the depth edges issue for LIDAR-supervised scenes. In this work we propose to learn to detect the location of depth edges from densely-supervised synthetic data, and use it to generate supervision for the depth edges in the MDE training. To quantitatively evaluate our approach, and due to the lack of depth edges GT in LIDAR-based scenes, we manually annotated subsets of the KITTI and the DDAD datasets with depth edges ground truth. We demonstrate significant gains in the accuracy of the depth edges with comparable per-pixel depth accuracy on several challenging datasets. Code and datasets are available at \url{https://github.com/liortalker/MindTheEdge}.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# 一対の量子ビットを持つEPRステアリングにおける1つの純粋ステアリング状態のパワーについて

On the power of one pure steered state for EPR-steering with a pair of qubits ( http://arxiv.org/abs/2212.10825v2 )

ライセンス: Link先を確認
Qiu-Cheng Song, Travis J. Baker, Howard M. Wiseman, (参考訳) はじめに紹介されたように、EPR現象は、一方のパーティ(アリス)が二つの測定設定、もう一方のパーティ(ボブ)の量子系を2つの異なる純粋な状態のアンサンブルに分けることで、あるパーティ(アリス)が操る能力であった。 後に量子情報タスクとして形式化されたように、異なるアンサンブルが混合状態を構成する場合でも、EPRステアリングを示すことができる。 Alice と Bob がそれぞれ qubit を持ち、Alice が2コトミック射影測定を行うシナリオを考える。 この場合、彼女が操ることのできるアンサンブルの状態は、ボブのブロッホ球の楕円体${\cal E}$の表面を形成する。 さらに、ステアリング楕円体 ${\cal E}$ を非零体積とする。 アリスの最初の測度設定が2つの純粋な状態からなるアンサンブルを生成すれば、これと他の測度設定がEPRステアリングを示すことが以前は示されていた。 ここでは、アリスの第1設定のアンサンブルが1つの純粋な状態 $\mathsf{p}\in{\cal E}$ しか含まない場合、確率 $p_\mathsf{p}$ が成立する。 射影幾何学を用いて、アリスがボブ状態の EPR-ステアリングを証明できるために必要な十分な条件を導出する。 これに基づいて、与えられた${\cal E}$に対して、$p_\mathsf{p}$ が十分高ければ [$p_{\sf p} > p_{\rm max}^{{\cal E}} \in [0,1)$] ならば、アリスによる任意の別個の第2設定は、EPRステアリングを示すのに十分である。 同様に、$p_\mathsf{p}>p_{\rm min}^{{\cal E}}$という$p_{\rm min}^{{\cal E}}$をAliceが最初の設定といくつかの設定だけでEPRステアリングを実証するために必要となる。 p_{\rm max}^{{\cal E}} = p_{\rm min}^{{\cal E}}$。

As originally introduced, the EPR phenomenon was the ability of one party (Alice) to steer, by her choice between two measurement settings, the quantum system of another party (Bob) into two distinct ensembles of pure states. As later formalized as a quantum information task, EPR-steering can be shown even when the distinct ensembles comprise mixed states. Consider the scenario where Alice and Bob each have a qubit and Alice performs dichotomic projective measurements. In this case, the states in the ensembles to which she can steer form the surface of an ellipsoid ${\cal E}$ in Bob's Bloch ball. Further, let the steering ellipsoid ${\cal E}$ have nonzero volume. It has previously been shown that if Alice's first measurement setting yields an ensemble comprising two pure states, then this, plus any one other measurement setting, will demonstrate EPR-steering. Here we consider what one can say if the ensemble from Alice's first setting contains only one pure state $\mathsf{p}\in{\cal E}$, occurring with probability $p_\mathsf{p}$. Using projective geometry, we derive the necessary and sufficient condition analytically for Alice to be able to demonstrate EPR-steering of Bob's state using this and some second setting, when the two ensembles from these lie in a given plane. Based on this, we show that, for a given ${\cal E}$, if $p_\mathsf{p}$ is high enough [$p_{\sf p} > p_{\rm max}^{{\cal E}} \in [0,1)$] then any distinct second setting by Alice is sufficient to demonstrate EPR-steering. Similarly we derive a $p_{\rm min}^{{\cal E}}$ such that $p_\mathsf{p}>p_{\rm min}^{{\cal E}}$ is necessary for Alice to demonstrate EPR-steering using only the first setting and some other setting. Moreover, the expressions we derive are tight; for spherical steering ellipsoids, the bounds coincide: $p_{\rm max}^{{\cal E}} = p_{\rm min}^{{\cal E}}$.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# 競争力のあるマルチエージェント意思決定・制御問題の解法

An active learning method for solving competitive multi-agent decision-making and control problems ( http://arxiv.org/abs/2212.12561v3 )

ライセンス: Link先を確認
Filippo Fabiani, Alberto Bemporad, (参考訳) 競合エージェントの集団に対する定常的行動プロファイルを識別するために、それぞれがプライベート戦略を実行するために、エージェントの反応を探索し、アクション・アクション・マッピングの単純な局所パラメトリック推定を再帰的に更新する、新しいアクティブ・ラーニング・スキームを導入する。 非常に一般的な作業仮定(静止プロファイルの存在を前提としない)の下では、提案したアクティブラーニング手法の漸近特性を評価するのに十分な条件が確立され、アクション-反応マッピングを特徴付けるパラメータが収束すると、定常動作プロファイルが達成される。 このような条件は、そのようなプロファイルが存在することの証明書としても機能する。 典型的な競合型マルチエージェント制御と意思決定問題を含む広範囲な数値シミュレーションにより,提案手法の有効性が示された。

To identify a stationary action profile for a population of competitive agents, each executing private strategies, we introduce a novel active-learning scheme where a centralized external observer (or entity) can probe the agents' reactions and recursively update simple local parametric estimates of the action-reaction mappings. Under very general working assumptions (not even assuming that a stationary profile exists), sufficient conditions are established to assess the asymptotic properties of the proposed active learning methodology so that, if the parameters characterizing the action-reaction mappings converge, a stationary action profile is achieved. Such conditions hence act also as certificates for the existence of such a profile. Extensive numerical simulations involving typical competitive multi-agent control and decision-making problems illustrate the practical effectiveness of the proposed learning-based approach.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# 条件付きノット変位:単一量子ビットを用いた高速マルチオシレータ制御

Conditional not displacement: fast multi-oscillator control with a single qubit ( http://arxiv.org/abs/2301.09831v3 )

ライセンス: Link先を確認
Asaf A. Diringer, Eliya Blumenthal, Avishay Grinberg, Liang Jiang, Shay Hacohen-Gourgy, (参考訳) ボソニック符号化は量子情報処理のアプローチであり、高調波発振器モードの多くのレベルを符号化することで、ハードウェアのオーバーヘッドを低くする。 複数のモードへのスケーリングには、独立制御には弱い相互作用が必要であるが、高速制御には強い相互作用が必要である。 複数のモードに高速で効率的なユニバーサル制御を適用することは、未解決の問題である。 驚いたことに、複数の高調波発振器に結合した単一クビットアンシラの状態に条件付けられた変位は、普遍的な制御に十分である。 本稿では,ゲートの絡み合い時間を削減するために,条件付き操作の概念を提案する。 本研究では, 単一アンシラ量子ビットに弱結合した多モード系におけるボゾン状態の高速生成と制御を可能にする条件付きノット変位制御法を開発した。 アンシラ結合が弱いにもかかわらず,本手法は高速である。 弱い結合は、分離性と独立性に優れた制御を可能にする。 多モード超伝導キャビティに弱結合した超伝導トランスモン量子ビットの制御を実証する。 我々は多モードキャビティの異なるモードで絡み合った猫状態と分離可能な猫状態の両方を作成し、異なるモードの独立制御を維持しながら低いクロストークでの絡み合い動作を示す。 演算時間は、典型的な時間スケールである結合率の逆数によって制限されず、ほぼ2桁の精度で上回っていることを示す。 条件付きノット変位を用いたマルチモード特性関数の効率的な測定法を用いて,本結果を検証する。 以上の結果から,一般エンタングリング操作への新たなアプローチがもたらされ,高速かつ効率的な多モードボソニック符号化と測定が可能となった。

Bosonic encoding is an approach for quantum information processing, promising lower hardware overhead by encoding in the many levels of a harmonic oscillator mode. Scaling to multiple modes requires weak interaction for independent control, yet strong interaction for fast control. Applying fast and efficient universal control on multiple modes remains an open problem. Surprisingly, we find that displacements conditioned on the state of a single qubit ancilla coupled to multiple harmonic oscillators are sufficient for universal control. We present the conditional-no operation concept, which can be used for reducing the duration of entangling gates. Within this guiding concept, we develop the conditional not displacement control method which enables fast generation and control of bosonic states in multi-mode systems weakly coupled to a single ancilla qubit. Our method is fast despite the weak ancilla coupling. The weak coupling in turn allows for excellent separability and thus independent control. We demonstrate our control on a superconducting transmon qubit weakly coupled to a multi-mode superconducting cavity. We create both entangled and separable cat-states in different modes of the multi-mode cavity, showing entangling operations at low cross-talk while maintaining independent control of the different modes. We show that the operation time is not limited by the inverse of the coupling rate, which is the typical timescale, and we exceed it by almost 2 orders of magnitude. We verify our results with an efficient method for measurement of the multi-mode characteristic function which employs our conditional not displacement. Our results inspire a new approach toward general entangling operations and allow for fast and efficient multi-mode bosonic encoding and measurement.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# 類似性

Similarity ( http://arxiv.org/abs/2302.10096v6 )

ライセンス: Link先を確認
Christian Antić, (参考訳) 遠くに見える物体の類似性を検知し、活用することは、間違いなく人間の重要な能力である。 本稿では、要素の重要な性質を一般化の集合がエンコードする観察に基づいて、抽象代数的かつ質的な正当性に基づく類似性の概念である「textit{from the ground up」を開発する。 この方法で定義される類似性は、数学的性質に訴えるものであることを示す。 普遍代数学の基本的な概念のみを用いて第一原理から類似性の概念を構築し、その妥当性を読者に納得させることで、モデル理論型を通して自然に一階述語論理に組み込むことができることを示す。

Detecting and exploiting similarities between seemingly distant objects is without doubt an important human ability. This paper develops \textit{from the ground up} an abstract algebraic and qualitative justification-based notion of similarity based on the observation that sets of generalizations encode important properties of elements. We show that similarity defined in this way has appealing mathematical properties. As we construct our notion of similarity from first principles using only elementary concepts of universal algebra, to convince the reader of its plausibility, we show that it can be naturally embedded into first-order logic via model-theoretic types.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# ARS-DETR:変換器を用いたアスペクト比感度オブジェクト指向検出

ARS-DETR: Aspect Ratio Sensitive Oriented Object Detection with Transformer ( http://arxiv.org/abs/2303.04989v2 )

ライセンス: Link先を確認
Ying Zeng, Xue Yang, Qingyun Li, Yushi Chen, Junchi Yan, (参考訳) 既存のオブジェクト指向オブジェクト検出手法では、モデルの性能を測定するために計量AP$_{50}$が一般的である。 我々は、AP$_{50}$は、角度偏差の許容度が大きいため、オブジェクト指向物体の検出には本質的に不適であると主張する。 そこで我々は,モデルの性能を測定するために,高精度な計量 e g AP$_{75}$ を提唱する。 本稿では,ARS-DETR(Aspect Ratio Sensitive Oriented Object Detector with Transformer)を提案する。 具体的には、Aspect Ratio aware Circle Smooth Label (AR-CSL) と呼ばれる新しい角度分類法を提案し、より合理的な方法でアングルラベルを滑らかにし、以前の研究(例えばCSL)で導入されたハイパーパラメータを破棄する。 そして、回転変形可能な注目モジュールを、対応する角度でサンプリングポイントを回転させ、領域特徴とサンプリングポイントとの相違を取り除くように設計する。 また、アスペクト比に応じた動的重み係数を採用し、角度損失を算出する。 いくつかの挑戦的データセットに対する総合的な実験により,高精度オブジェクト指向物体検出タスクにおいて,本手法が競合性能を達成することを示す。

Existing oriented object detection methods commonly use metric AP$_{50}$ to measure the performance of the model. We argue that AP$_{50}$ is inherently unsuitable for oriented object detection due to its large tolerance in angle deviation. Therefore, we advocate using high-precision metric, e.g. AP$_{75}$, to measure the performance of models. In this paper, we propose an Aspect Ratio Sensitive Oriented Object Detector with Transformer, termed ARS-DETR, which exhibits a competitive performance in high-precision oriented object detection. Specifically, a new angle classification method, calling Aspect Ratio aware Circle Smooth Label (AR-CSL), is proposed to smooth the angle label in a more reasonable way and discard the hyperparameter that introduced by previous work (e.g. CSL). Then, a rotated deformable attention module is designed to rotate the sampling points with the corresponding angles and eliminate the misalignment between region features and sampling points. Moreover, a dynamic weight coefficient according to the aspect ratio is adopted to calculate the angle loss. Comprehensive experiments on several challenging datasets show that our method achieves competitive performance on the high-precision oriented object detection task.
翻訳日:2024-04-04 23:47:24 公開日:2024-04-03
# 航空シーン分類のためのUMDAによる分類器のアンサンブルの作成

Creating Ensembles of Classifiers through UMDA for Aerial Scene Classification ( http://arxiv.org/abs/2303.11389v2 )

ライセンス: Link先を確認
Fabio A. Faria, Luiz H. Buris, Luis A. M. Pereira, Fábio A. M. Cappabianco, (参考訳) 航空シーン分類は, 予め定義されたクラス(農業, 海岸, 港など)の集合において, リモートセンシング画像を意味的にラベル付けすることを目的としている。 リモートセンシング領域では、CNNアーキテクチャを代替ソリューションとして使用することもシーン分類タスクの現実である。 一般的に、これらのCNNは従来の画像分類タスクの実行に使用される。 しかし、リモートセンシング画像の分類に使われていない別の方法は、ディープメトリックラーニング(DML)アプローチを使うものかもしれない。 この意味で、この研究は6つのDMLアプローチを航空シーン分類タスクに適用し、4つの異なる事前学習されたCNNとそれらの振る舞いを分析し、進化計算アルゴリズム(UMDA)を用いてそれらを組み合わせることを提案する。 実験では、3つのよく知られたリモートセンシング空中シーンデータセットに対して、従来の訓練済みCNNと比較して、DMLアプローチよりも優れた分類結果を得ることができる。 さらに、UMDAアルゴリズムは、多様性のある場合のDMLアプローチを組み合わせるための有望な戦略であることが証明され、分類器の最終的なアンサンブルを構築するために、利用可能な分類器の約50%を用いて、分類結果の少なくとも5.6%の精度を向上する。

Aerial scene classification, which aims to semantically label remote sensing images in a set of predefined classes (e.g., agricultural, beach, and harbor), is a very challenging task in remote sensing due to high intra-class variability and the different scales and orientations of the objects present in the dataset images. In remote sensing area, the use of CNN architectures as an alternative solution is also a reality for scene classification tasks. Generally, these CNNs are used to perform the traditional image classification task. However, another less used way to classify remote sensing image might be the one that uses deep metric learning (DML) approaches. In this sense, this work proposes to employ six DML approaches for aerial scene classification tasks, analysing their behave with four different pre-trained CNNs as well as combining them through the use of evolutionary computation algorithm (UMDA). In performed experiments, it is possible to observe than DML approaches can achieve the best classification results when compared to traditional pre-trained CNNs for three well-known remote sensing aerial scene datasets. In addition, the UMDA algorithm proved to be a promising strategy to combine DML approaches when there is diversity among them, managing to improve at least 5.6% of accuracy in the classification results using almost 50\% of the available classifiers for the construction of the final ensemble of classifiers.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# 孤立した島からパンジーへ:人間の行動理解のための意味空間を統一する

From Isolated Islands to Pangea: Unifying Semantic Space for Human Action Understanding ( http://arxiv.org/abs/2304.00553v4 )

ライセンス: Link先を確認
Yong-Lu Li, Xiaoqian Wu, Xinpeng Liu, Zehao Wang, Yiming Dou, Yikun Ji, Junyi Zhang, Yixing Li, Jingru Tan, Xudong Lu, Cewu Lu, (参考訳) 行動理解は長期的な関心を集めている。 物理空間から意味空間への写像として形成することができる。 通常、研究者はクラスを定義し、ベンチマークのエンベロープを押すために、慣用的な選択に従ってデータセットを構築した。 データセットは、セマンティックなギャップや、データセットAのハウスワークやデータセットBの洗面板など、さまざまなクラスの粒度によって、相互に相容れない。我々は、コミュニティの取り組みに集中し、汎用的なアクション学習を追求するために、すべてのデータセットを一緒に使用するために、より原則化されたセマンティックスペースが必要であると論じている。 この目的のために、動詞分類階層が与えられた構造化された行動意味空間を設計し、大規模な行動をカバーする。 以前のデータセットのクラスをセマンティック空間に合わせることで、(画像/ビデオ/スケルトン/MoCap)データセットを統一されたラベルシステムで統一されたデータベースにまとめます。 そこで本研究では,Pangeaを完全に活用するために,物理空間から意味空間への新たなモデルマッピングを提案する。 大規模な実験では,新しいシステムは,特に伝達学習において,大きな優位性を示す。 私たちのコードとデータはhttps://mvig-rhos.com/pangea.comで公開されます。

Action understanding has attracted long-term attention. It can be formed as the mapping from the physical space to the semantic space. Typically, researchers built datasets according to idiosyncratic choices to define classes and push the envelope of benchmarks respectively. Datasets are incompatible with each other like "Isolated Islands" due to semantic gaps and various class granularities, e.g., do housework in dataset A and wash plate in dataset B. We argue that we need a more principled semantic space to concentrate the community efforts and use all datasets together to pursue generalizable action learning. To this end, we design a structured action semantic space given verb taxonomy hierarchy and covering massive actions. By aligning the classes of previous datasets to our semantic space, we gather (image/video/skeleton/MoCap) datasets into a unified database in a unified label system, i.e., bridging "isolated islands" into a "Pangea". Accordingly, we propose a novel model mapping from the physical space to semantic space to fully use Pangea. In extensive experiments, our new system shows significant superiority, especially in transfer learning. Our code and data will be made public at https://mvig-rhos.com/pangea.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# DETRはリアルタイム物体検出でYOLOに勝る

DETRs Beat YOLOs on Real-time Object Detection ( http://arxiv.org/abs/2304.08069v3 )

ライセンス: Link先を確認
Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, Jie Chen, (参考訳) YOLOシリーズは、速度と精度の間の合理的なトレードオフのため、リアルタイムオブジェクト検出の最も一般的なフレームワークとなっている。 しかし, YOLOの速度と精度はNMSに負の影響を受けている。 近年、エンドツーエンドのTransformer-based detector (DETR) は、NMSを除去する代替手段を提供している。 それでも高い計算コストは、その実用性を制限し、NMSを除外する利点を完全に活用することを妨げる。 本稿では,実時間検出TRansformer(RT-DETR)を提案する。 我々はRT-DETRを2つのステップで構築し、先進的なDETRに基づいて、まず、スピードを改善しながら精度を維持することに集中し、その後、スピードを向上し、精度を向上する。 具体的には,マルチスケールな特徴を高速に処理するハイブリッドエンコーダを設計する。 そして,デコーダに高品質な初期クエリを提供する不確実性最小のクエリ選択を提案し,精度を向上する。 さらにRT-DETRは、復調することなく様々なシナリオに適応するようにデコーダ層の数を調整することで、フレキシブルなスピードチューニングをサポートする。 我々のRT-DETR-R50 / R101は、COCOで53.1% / 54.3% AP、T4 GPUで108 / 74 FPSを達成し、これまで進歩していたYOLOよりも高速かつ正確である。 また、より軽量なYOLO検出器(SモデルとMモデル)よりも優れたスケールRT-DETRを開発した。 さらにRT-DETR-R50はDINO-R50よりも精度が2.2%、FPSでは21倍高い。 Objects365で事前トレーニングを行った後、RT-DETR-R50 / R101は55.3% / 56.2%APを達成した。 プロジェクトページ: https://zhao-yian.github.io/RTDETR。

The YOLO series has become the most popular framework for real-time object detection due to its reasonable trade-off between speed and accuracy. However, we observe that the speed and accuracy of YOLOs are negatively affected by the NMS. Recently, end-to-end Transformer-based detectors (DETRs) have provided an alternative to eliminating NMS. Nevertheless, the high computational cost limits their practicality and hinders them from fully exploiting the advantage of excluding NMS. In this paper, we propose the Real-Time DEtection TRansformer (RT-DETR), the first real-time end-to-end object detector to our best knowledge that addresses the above dilemma. We build RT-DETR in two steps, drawing on the advanced DETR: first we focus on maintaining accuracy while improving speed, followed by maintaining speed while improving accuracy. Specifically, we design an efficient hybrid encoder to expeditiously process multi-scale features by decoupling intra-scale interaction and cross-scale fusion to improve speed. Then, we propose the uncertainty-minimal query selection to provide high-quality initial queries to the decoder, thereby improving accuracy. In addition, RT-DETR supports flexible speed tuning by adjusting the number of decoder layers to adapt to various scenarios without retraining. Our RT-DETR-R50 / R101 achieves 53.1% / 54.3% AP on COCO and 108 / 74 FPS on T4 GPU, outperforming previously advanced YOLOs in both speed and accuracy. We also develop scaled RT-DETRs that outperform the lighter YOLO detectors (S and M models). Furthermore, RT-DETR-R50 outperforms DINO-R50 by 2.2% AP in accuracy and about 21 times in FPS. After pre-training with Objects365, RT-DETR-R50 / R101 achieves 55.3% / 56.2% AP. The project page: https://zhao-yian.github.io/RTDETR.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# エッジ時間状態を用いた動的グラフ表現学習のための構造強化変換器

Structure-reinforced Transformer for Dynamic Graph Representation Learning with Edge Temporal States ( http://arxiv.org/abs/2304.10079v2 )

ライセンス: Link先を確認
Shengxiang Hu, Guobing Zou, Song Yang, Shiyi Lin, Bofeng Zhang, Yixin Chen, (参考訳) 動的グラフ表現学習の飛躍的な分野は、現実世界のアプリケーションにおけるグラフデータ分析の需要の増加に拍車をかけたものであり、好機と恐ろしい課題の両方を招いている。 リカレントニューラルネットワーク(RNN)とグラフニューラルネットワーク(GNN)を活用する最近の研究によって達成された有望な結果にもかかわらず、これらのアプローチは、異なる時間スライス間のノード間関係の強さに対するエッジ時間状態の影響を適切に考慮できず、さらに関係強度の変動によって引き起こされるノード特徴の動的変化を見越す。 さらに、グローバルな構造的特徴の抽出は、GNNの過度に滑らかな欠点によって妨げられ、それによって全体の性能が制限される。 本稿では,新しい動的グラフ表現学習フレームワークであるRecurrent Structure-Reinforced Graph Transformer(RSGT)を提案する。 このようにして、異なる辺の時間状態は、グラフの位相構造の一部としてマッピングされる。 その後、グラフトポロジ構造と進化力学の両方をエンコードする時間ノード表現を、繰り返し学習パラダイムを用いてキャプチャするために、構造強化グラフ変換器を提案する。 実世界の4つのデータセットを用いて実験を行い、離散動的グラフ表現学習の領域におけるRSGTの優れた性能について評価した。 その結果,RSGTは動的リンク予測タスクにおいて競合する手法を一貫して上回っていることがわかった。

The burgeoning field of dynamic graph representation learning, fuelled by the increasing demand for graph data analysis in real-world applications, poses both enticing opportunities and formidable challenges. Despite the promising results achieved by recent research leveraging recurrent neural networks (RNNs) and graph neural networks (GNNs), these approaches often fail to adequately consider the impact of the edge temporal states on the strength of inter-node relationships across different time slices, further overlooking the dynamic changes in node features induced by fluctuations in relationship strength. Furthermore, the extraction of global structural features is hindered by the inherent over-smoothing drawback of GNNs, which in turn limits their overall performance. In this paper, we introduce a novel dynamic graph representation learning framework namely Recurrent Structure-reinforced Graph Transformer (RSGT), which initially models the temporal status of edges explicitly by utilizing different edge types and weights based on the differences between any two consecutive snapshots. In this manner, the varying edge temporal states are mapped as a part of the topological structure of the graph. Subsequently, a structure-reinforced graph transformer is proposed to capture temporal node representations that encoding both the graph topological structure and evolving dynamics,through a recurrent learning paradigm. Our experimental evaluations, conducted on four real-world datasets, underscore the superior performance of the RSGT in the realm of discrete dynamic graph representation learning. The results reveal that RSGT consistently surpasses competing methods in dynamic link prediction tasks.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# バックドアとしてのインストラクション:大規模言語モデルのためのインストラクションチューニングのバックドア脆弱性

Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models ( http://arxiv.org/abs/2305.14710v2 )

ライセンス: Link先を確認
Jiashu Xu, Mingyu Derek Ma, Fei Wang, Chaowei Xiao, Muhao Chen, (参考訳) 本稿では,タスク命令付きクラウドソースデータセット上でモデルが訓練され,優れたパフォーマンスを実現するという,創発的命令チューニングパラダイムのセキュリティ上の懸念について検討する。 我々の研究は、攻撃者がデータインスタンスやラベル自体を変更する必要なしに、悪意のある命令(~1000トークン)を非常に少なく発行し、データ中毒によるモデル動作を制御することによって、バックドアを注入できることを実証している。 このような命令攻撃により、攻撃者は4つの一般的なNLPデータセットで90%以上の攻撃成功率を達成することができる。 命令攻撃に関する実証的研究として, 毒素モデルが15の多様な生成データセットにゼロショットで転送可能な毒素移動, 攻撃者が直接他の多くのデータセットに毒素命令を適用可能な命令伝達, 連続的な微調整に対する毒素耐性など, 命令攻撃の独特な視点を系統的に評価した。 最後に、RLHFとクリーンなデモは、バックドアをある程度緩和する可能性があることを示す。 これらの知見は, 指導指導モデルにおける中毒攻撃に対するより堅牢な防御の必要性を浮き彫りにし, 指導クラウドソーシングにおけるデータ品質の確保の重要性を強調している。

We investigate security concerns of the emergent instruction tuning paradigm, that models are trained on crowdsourced datasets with task instructions to achieve superior performance. Our studies demonstrate that an attacker can inject backdoors by issuing very few malicious instructions (~1000 tokens) and control model behavior through data poisoning, without even the need to modify data instances or labels themselves. Through such instruction attacks, the attacker can achieve over 90% attack success rate across four commonly used NLP datasets. As an empirical study on instruction attacks, we systematically evaluated unique perspectives of instruction attacks, such as poison transfer where poisoned models can transfer to 15 diverse generative datasets in a zero-shot manner; instruction transfer where attackers can directly apply poisoned instruction on many other datasets; and poison resistance to continual finetuning. Lastly, we show that RLHF and clean demonstrations might mitigate such backdoors to some degree. These findings highlight the need for more robust defenses against poisoning attacks in instruction-tuning models and underscore the importance of ensuring data quality in instruction crowdsourcing.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# すべてのメトリクスが罪悪感であるとは限らない - 参照の多様化によるNLG評価の改善

Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References ( http://arxiv.org/abs/2305.15067v2 )

ライセンス: Link先を確認
Tianyi Tang, Hongyuan Lu, Yuchen Eleanor Jiang, Haoyang Huang, Dongdong Zhang, Wayne Xin Zhao, Tom Kocmi, Furu Wei, (参考訳) 自然言語生成(NLG)に関するほとんどの研究は、サンプルに対する限られた参照を持つ評価ベンチマークに依存しており、人間の判断と相関が低い可能性がある。 その根底にある理由は、1つの意味的意味が実際に異なる形式で表現できることであり、単一のまたは少数の参照による評価はモデルの仮説の質を正確に反映しない可能性があることである。 この問題に対処するため,Div-Refという名前の簡易かつ効果的な手法を提案する。 我々は,大言語モデル(LLM)を活用して,単一の参照表現を複数の高品質なものに多様化し,参照文の意味空間を可能な限りカバーする。 本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示すための総合的な実験を行った。 この考え方は、複数の参照を組み込むことによるメリットを導出できる、最近のLLMベースの評価と互換性がある。 我々は、LLMが生成したとしても、将来の世代ベンチマークにより多くの参照を含めるよう強く推奨する。 研究を容易にするため、すべてのコードとデータをhttps://github.com/RUCAIBox/Div-Refでリリースします。

Most research about natural language generation (NLG) relies on evaluation benchmarks with limited references for a sample, which may result in poor correlations with human judgements. The underlying reason is that one semantic meaning can actually be expressed in different forms, and the evaluation with a single or few references may not accurately reflect the quality of the model's hypotheses. To address this issue, this paper presents a simple and effective method, named Div-Ref, to enhance existing evaluation benchmarks by enriching the number of references. We leverage large language models (LLMs) to diversify the expression of a single reference into multiple high-quality ones to cover the semantic space of the reference sentence as much as possible. We conduct comprehensive experiments to empirically demonstrate that diversifying the expression of reference can significantly enhance the correlation between automatic evaluation and human evaluation. This idea is compatible with recent LLM-based evaluation which can similarly derive advantages from incorporating multiple references. We strongly encourage future generation benchmarks to include more references, even if they are generated by LLMs, which is once for all. We release all the code and data at https://github.com/RUCAIBox/Div-Ref to facilitate research.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# 長期制約を考慮したランダム化ネットワークリソース割り当てのオンライン最適化

Online Optimization for Randomized Network Resource Allocation with Long-Term Constraints ( http://arxiv.org/abs/2305.15558v2 )

ライセンス: Link先を確認
Ahmed Sid-Ali, Ioannis Lambadaris, Yiqiang Q. Zhao, Gennady Shaikhet, Shima Kheradmand, (参考訳) 本稿では,シンプルな通信ネットワークにおける最適オンラインリソース予約問題について検討する。 ネットワークは、ローカル通信リンクによってリンクされた2つの計算ノードで構成される。 システムは個別の時間で動作し、管理者は各時間帯に、実際のジョブ要求が知られる前に、サーバのリソースを予約する。 予約の費用がかかる。 そして、クライアント要求が観測された後、追加の転送コストを発生させることで、要求に最も適するように、あるサーバから別のサーバにジョブを転送することができる。 特定のジョブ要求が満足できない場合、ブロックされたジョブのそれぞれに支払う費用を負担する違反が発生します。 目標は、一定の予算制限の下で累積的違反と輸送コストを維持しながら、有限地平線上での総予約コストを最小化することである。 そこで本研究では,まず,予約可能な予約空間上のオンライン最適化問題から導出される確率分布の列に基づいて,予約をランダムに描画する自然に対する繰り返しゲームとして定式化する。 次に、オンラインサドルポイントアルゴリズムを提案し、関連するK-ベンチマークの後悔に対する上限と累積制約違反に対する上限を提示する。 最後に,本アルゴリズムの性能を単純な決定論的資源割り当てポリシーと比較する数値実験について述べる。

In this paper, we study an optimal online resource reservation problem in a simple communication network. The network is composed of two compute nodes linked by a local communication link. The system operates in discrete time; at each time slot, the administrator reserves resources for servers before the actual job requests are known. A cost is incurred for the reservations made. Then, after the client requests are observed, jobs may be transferred from one server to the other to best accommodate the demands by incurring an additional transport cost. If certain job requests cannot be satisfied, there is a violation that engenders a cost to pay for each of the blocked jobs. The goal is to minimize the overall reservation cost over finite horizons while maintaining the cumulative violation and transport costs under a certain budget limit. To study this problem, we first formalize it as a repeated game against nature where the reservations are drawn randomly according to a sequence of probability distributions that are derived from an online optimization problem over the space of allowable reservations. We then propose an online saddle-point algorithm for which we present an upper bound for the associated K-benchmark regret together with an upper bound for the cumulative constraint violations. Finally, we present numerical experiments where we compare the performance of our algorithm with those of simple deterministic resource allocation policies.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# 単純なWord2Vec型ベクトル算術を実装する言語モデル

Language Models Implement Simple Word2Vec-style Vector Arithmetic ( http://arxiv.org/abs/2305.16130v3 )

ライセンス: Link先を確認
Jack Merullo, Carsten Eickhoff, Ellie Pavlick, (参考訳) 言語モデル(LM)に対する主要な批判は、その調査性である。 本稿では、そのサイズと複雑さにもかかわらず、LMが単純なベクトル演算方式を利用して、モデルの隠れた空間に符号化された正規性(例:ポーランド:ワルシャワ:中国:北京)を用いて、いくつかのリレーショナルタスクを解くことを示す。 言語モデルのサイズ(124Mパラメータから176Bパラメータまで)を文脈内学習環境で検討し、様々なタスク(大都市、大都市、大都市、過去の拡張を含む)に対して、そのメカニズムの重要な部分は、一般的にフィードフォワード(FFN)ネットワークによって適用される単純な付加的な更新に還元されることを示す。 さらに、このメカニズムは、ローカルコンテキストからの検索よりも、事前学習メモリからの検索を必要とするタスクに特有であることを示す。 この結果は, LMの解釈可能性の向上に寄与し, モデルの大規模かつ非線形な性質にもかかわらず, タスクを解くために最終的に使用する戦略が, 慣れ親しんだアルゴリズムや直感的なアルゴリズムに還元されるという楽観的な理由を与える。

A primary criticism towards language models (LMs) is their inscrutability. This paper presents evidence that, despite their size and complexity, LMs sometimes exploit a simple vector arithmetic style mechanism to solve some relational tasks using regularities encoded in the hidden space of the model (e.g., Poland:Warsaw::China:Beijing). We investigate a range of language model sizes (from 124M parameters to 176B parameters) in an in-context learning setting, and find that for a variety of tasks (involving capital cities, uppercasing, and past-tensing) a key part of the mechanism reduces to a simple additive update typically applied by the feedforward (FFN) networks. We further show that this mechanism is specific to tasks that require retrieval from pretraining memory, rather than retrieval from local context. Our results contribute to a growing body of work on the interpretability of LMs, and offer reason to be optimistic that, despite the massive and non-linear nature of the models, the strategies they ultimately use to solve tasks can sometimes reduce to familiar and even intuitive algorithms.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# RDumb: 継続的なテスト時間適応の進捗に疑問を呈するシンプルなアプローチ

RDumb: A simple approach that questions our progress in continual test-time adaptation ( http://arxiv.org/abs/2306.05401v3 )

ライセンス: Link先を確認
Ori Press, Steffen Schneider, Matthias Kümmerer, Matthias Bethge, (参考訳) テスト時間適応(TTA)では、事前トレーニングされたモデルをデプロイ時にデータ配布を変更するように更新することができる。 初期の研究は、個々の固定分布シフトに対してこれらのアルゴリズムを検証したが、近年の研究では、長期にわたる連続的な適応法が提案されている。 そこで本研究では,TTA手法の漸近的性能を評価するために,CCC(Continuous Changeing Corruptions)ベンチマークを提案する。 最終的に、1つの最先端のメソッド以外はすべて崩壊し、非適応モデルよりもパフォーマンスが悪くなることに気付きました。 さらに,モデルが予め訓練された状態に定期的にリセットされるシンプルなベースライン "RDumb" を導入する。 RDumbは、これまで提案されていたすべてのベンチマークで、より良く、あるいは同等に動作する。 以上の結果から, 従来のTTAアプローチは, 崩壊を避けるための適応の正則化や, 単純化されたリセット戦略に勝ることが不可能であった。

Test-Time Adaptation (TTA) allows to update pre-trained models to changing data distributions at deployment time. While early work tested these algorithms for individual fixed distribution shifts, recent work proposed and applied methods for continual adaptation over long timescales. To examine the reported progress in the field, we propose the Continually Changing Corruptions (CCC) benchmark to measure asymptotic performance of TTA techniques. We find that eventually all but one state-of-the-art methods collapse and perform worse than a non-adapting model, including models specifically proposed to be robust to performance collapse. In addition, we introduce a simple baseline, "RDumb", that periodically resets the model to its pretrained state. RDumb performs better or on par with the previously proposed state-of-the-art in all considered benchmarks. Our results show that previous TTA approaches are neither effective at regularizing adaptation to avoid collapse nor able to outperform a simplistic resetting strategy.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# ボリューム・メディカル・イメージ・セグメンテーションのための学習可能なウェイト初期化

Learnable Weight Initialization for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2306.09320v4 )

ライセンス: Link先を確認
Shahina Kunhimon, Abdelrahman Shaker, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, (参考訳) 局所的畳み込みとグローバルな注目を集めるハイブリッド医療画像分割モデルは近年注目されている。 主にアーキテクチャの変更に重点を置いているが、既存のほとんどのハイブリッドアプローチでは、医療データ固有のボリュームの性質を無視して、その性能を制限する従来のデータ非依存の重み初期化スキームを使用している。 この問題に対処するため,本論文では,医用トレーニングデータを用いて,自己指導型目標を用いた文脈的・構造的手がかりを効果的に学習する,学習可能なウェイト初期化手法を提案する。 我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。 多臓器・肺癌セグメンテーションタスクの実験は、我々のアプローチの有効性を示し、最先端セグメンテーション性能をもたらす。 提案手法は, 大規模データセットを用いて事前訓練したSwin-UNETRモデルと比較して, 多組織セグメンテーションタスクにおいて良好に機能する。 ソースコードとモデルについては、https://github.com/ShahinaKK/LWI-VMS.comで公開しています。

Hybrid volumetric medical image segmentation models, combining the advantages of local convolution and global attention, have recently received considerable attention. While mainly focusing on architectural modifications, most existing hybrid approaches still use conventional data-independent weight initialization schemes which restrict their performance due to ignoring the inherent volumetric nature of the medical data. To address this issue, we propose a learnable weight initialization approach that utilizes the available medical training data to effectively learn the contextual and structural cues via the proposed self-supervised objectives. Our approach is easy to integrate into any hybrid model and requires no external training data. Experiments on multi-organ and lung cancer segmentation tasks demonstrate the effectiveness of our approach, leading to state-of-the-art segmentation performance. Our proposed data-dependent initialization approach performs favorably as compared to the Swin-UNETR model pretrained using large-scale datasets on multi-organ segmentation task. Our source code and models are available at: https://github.com/ShahinaKK/LWI-VMS.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# 表象による混雑緩和--市場における経済福祉改善の学習

Decongestion by Representation: Learning to Improve Economic Welfare in Marketplaces ( http://arxiv.org/abs/2306.10606v2 )

ライセンス: Link先を確認
Omer Nahum, Gali Noti, David Parkes, Nir Rosenfeld, (参考訳) 混雑は、消費者が同じ商品のサブセットで非効率に競争する市場において共通の失敗モードである(例えば、休暇のレンタルプラットフォームで同じ小さな資産を追求する)。 典型的な経済的な話は、供給と需要のバランスをとることで価格が下落するということである。 しかし、現代のオンラインマーケットプレースでは、価格は通常、売り手によって分散された方法で設定され、アイテムに関する情報は必然的に部分的である。 プラットフォームのパワーは、デフォルトでユーザに提示されるアイテムに関する情報のサブセットである表現を制御することに限定されます。 プラットフォームは、混雑を減らし、社会的福祉を改善する表現を学習しようとする。 技術的な課題は2つある:真の選好ではなく、消費者の選択から明らかな選好にのみ依存すること。 我々は、消費者選択データに基づいてエンドツーエンドにトレーニングできる福祉の差別化可能なプロキシを提案することによって、両方の課題に取り組む。 我々は, 脱便が福祉を促進するための十分な条件を策定し, 提案手法の有用性を示す合成データと実データの両方に関する広範な実験結果を示す。

Congestion is a common failure mode of markets, where consumers compete inefficiently on the same subset of goods (e.g., chasing the same small set of properties on a vacation rental platform). The typical economic story is that prices decongest by balancing supply and demand. But in modern online marketplaces, prices are typically set in a decentralized way by sellers, and the information about items is inevitably partial. The power of a platform is limited to controlling representations -- the subset of information about items presented by default to users. This motivates the present study of decongestion by representation, where a platform seeks to learn representations that reduce congestion and thus improve social welfare. The technical challenge is twofold: relying only on revealed preferences from the choices of consumers, rather than true preferences; and the combinatorial problem associated with representations that determine the features to reveal in the default view. We tackle both challenges by proposing a differentiable proxy of welfare that can be trained end-to-end on consumer choice data. We develop sufficient conditions for when decongestion promotes welfare, and present the results of extensive experiments on both synthetic and real data that demonstrate the utility of our approach.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# MeciFace: 顔・食活動のエッジリアルタイム認識のためのメカノノグラフィと慣性核融合ガラス

MeciFace: Mechanomyography and Inertial Fusion-based Glasses for Edge Real-Time Recognition of Facial and Eating Activities ( http://arxiv.org/abs/2306.13674v3 )

ライセンス: Link先を確認
Hymalai Bello, Sungho Suh, Bo Zhou, Paul Lukowicz, (参考訳) ストレス関連食行動の頻度の増加と健康への影響は、効果的でユビキタスなモニタリングシステムの重要性を浮き彫りにしている。 本稿では,リアルタイム・オン・ザ・エッジ(RTE)における表情・食事活動の監視を目的とした,革新的なウェアラブル技術であるMeciFaceを提案する。 MeciFaceは、健康的な食事行動やストレス管理を促進するために、低消費電力でプライバシーを意識し、高精度なツールを提供することを目指している。 我々は、表情と食事監視シナリオのバックボーンモデルとして、軽量な畳み込みニューラルネットワークを使用している。 MeciFaceシステムは11KBから19KBまでのメモリフットプリントで効率的なデータ処理を実現する。 RTE評価では,表情認識のF1スコアが86%,食事・飲酒監視のF1スコアが94%,未確認ユーザーのRTEがF1スコアが達成される(ユーザ非依存の場合)。

The increasing prevalence of stress-related eating behaviors and their impact on overall health highlights the importance of effective and ubiquitous monitoring systems. In this paper, we present MeciFace, an innovative wearable technology designed to monitor facial expressions and eating activities in real-time on-the-edge (RTE). MeciFace aims to provide a low-power, privacy-conscious, and highly accurate tool for promoting healthy eating behaviors and stress management. We employ lightweight convolutional neural networks as backbone models for facial expression and eating monitoring scenarios. The MeciFace system ensures efficient data processing with a tiny memory footprint, ranging from 11KB to 19 KB. During RTE evaluation, the system achieves an F1-score of < 86% for facial expression recognition and 94% for eating/drinking monitoring, for the RTE of unseen users (user-independent case).
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# CamemBERT-bio:フランスのバイオメディカルデータを用いた費用効果モデルのための継続的な事前トレーニング

CamemBERT-bio: Leveraging Continual Pre-training for Cost-Effective Models on French Biomedical Data ( http://arxiv.org/abs/2306.15550v3 )

ライセンス: Link先を確認
Rian Touchent, Laurent Romary, Eric de la Clergerie, (参考訳) 病院における臨床データは、臨床データウェアハウスを通じての研究にますますアクセスしやすくなっている。 しかし、これらの文書は構造化されておらず、医療報告から情報を抽出して臨床研究を行う必要がある。 CamemBERTのようなBERTライクなモデルによるトランスファーラーニングは、特に名前付きエンティティ認識において、フランス語に大きな進歩をもたらした。 しかし、これらのモデルは平易な言語で訓練されており、バイオメディカルデータでは効率が良くない。 このギャップに対処するため,フランスの生物医学モデルであるCamemBERT-bioを紹介した。 オリジナルのCamemBERTの継続的な事前トレーニングを通じて、CamemBERT-bioは、様々な生物医学的名前のエンティティ認識タスクにおいて平均2.54ポイントのF1スコアの改善を実現し、スクラッチからトレーニングに匹敵する同等に有能で計算力に乏しい代替手段として継続的な事前トレーニングの可能性を補強した。 さらに,フランスにおけるバイオメディカルモデルの現状を明確化するための標準評価プロトコルの利用の重要性を強調した。

Clinical data in hospitals are increasingly accessible for research through clinical data warehouses. However these documents are unstructured and it is therefore necessary to extract information from medical reports to conduct clinical studies. Transfer learning with BERT-like models such as CamemBERT has allowed major advances for French, especially for named entity recognition. However, these models are trained for plain language and are less efficient on biomedical data. Addressing this gap, we introduce CamemBERT-bio, a dedicated French biomedical model derived from a new public French biomedical dataset. Through continual pre-training of the original CamemBERT, CamemBERT-bio achieves an improvement of 2.54 points of F1-score on average across various biomedical named entity recognition tasks, reinforcing the potential of continual pre-training as an equally proficient yet less computationally intensive alternative to training from scratch. Additionally, we highlight the importance of using a standard evaluation protocol that provides a clear view of the current state-of-the-art for French biomedical models.
翻訳日:2024-04-04 23:37:29 公開日:2024-04-03
# ナビゲーションノイズ:ニューラルネットの一般化と校正に及ぼす騒音の影響に関する研究

Navigating Noise: A Study of How Noise Influences Generalisation and Calibration of Neural Networks ( http://arxiv.org/abs/2306.17630v2 )

ライセンス: Link先を確認
Martin Ferianc, Ondrej Bohdal, Timothy Hospedales, Miguel Rodrigues, (参考訳) トレーニング中にMixUpやDropoutといったノイズを統合することで、ニューラルネットワーク(NN)の一般化能力を高めることが、強力で適応可能なテクニックとして現れている。 NNトレーニングにおけるノイズの有効性が証明されているにもかかわらず、どのノイズ源、タイプ、配置が一般化と信頼性校正において最大限の利益をもたらすかについては合意が得られていない。 本研究は, NNアーキテクチャ, タスク, データセットのスペクトルにわたる学習者表現の計量的景観に関する実験と組み合わせ, 分布内あるいは分布外設定下でのNNの一般化とキャリブレーションに与える影響を評価するために, 多様なノイズモードを徹底的に検討する。 我々の研究は、AugMixと弱い拡張はコンピュータビジョンにおいてクロスタスク効果を示し、特定のドメインにノイズを調整する必要があることを強調している。 本研究は,単一領域内における雑音とハイパーパラメータ移動の併用効果を強調したが,他の領域へのメリットの移転は困難であった。 さらに、この研究は、一般化と校正の両方を同時に最適化する複雑さを強調し、特定のタスクやデータセットにおける最適なパフォーマンスのために、ノイズの組み合わせとハイパーパラメータチューニングを慎重に検討する必要があることを強調している。

Enhancing the generalisation abilities of neural networks (NNs) through integrating noise such as MixUp or Dropout during training has emerged as a powerful and adaptable technique. Despite the proven efficacy of noise in NN training, there is no consensus regarding which noise sources, types and placements yield maximal benefits in generalisation and confidence calibration. This study thoroughly explores diverse noise modalities to evaluate their impacts on NN's generalisation and calibration under in-distribution or out-of-distribution settings, paired with experiments investigating the metric landscapes of the learnt representations across a spectrum of NN architectures, tasks, and datasets. Our study shows that AugMix and weak augmentation exhibit cross-task effectiveness in computer vision, emphasising the need to tailor noise to specific domains. Our findings emphasise the efficacy of combining noises and successful hyperparameter transfer within a single domain but the difficulties in transferring the benefits to other domains. Furthermore, the study underscores the complexity of simultaneously optimising for both generalisation and calibration, emphasising the need for practitioners to carefully consider noise combinations and hyperparameter tuning for optimal performance in specific tasks and datasets.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# 実験データと観測データを組み合わせた二重機械学習手法

A Double Machine Learning Approach to Combining Experimental and Observational Data ( http://arxiv.org/abs/2307.01449v2 )

ライセンス: Link先を確認
Harsh Parikh, Marco Morucci, Vittorio Orlandi, Sudeepa Roy, Cynthia Rudin, Alexander Volfovsky, (参考訳) 実験的および観察的な研究は、しばしば証明不可能な仮定のために妥当性を欠いている。 本研究では,実験と観測を併用した二重機械学習手法を提案し,仮説違反の検証と治療効果の予測を連続的に行う。 我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。 これらの仮定が1つだけ違反した場合、半パラメトリックに効率的な治療効果推定器を提供する。 しかし,本定理は,一貫した処理効果推定のための仮定を正確に同定する必要性を強調している。 比較分析により,既存のデータ融合法よりもフレームワークの方が優れていることを示す。 本手法の実用性は,実世界の3つの事例研究によってさらに実証され,実証研究に広く応用される可能性を示している。

Experimental and observational studies often lack validity due to untestable assumptions. We propose a double machine learning approach to combine experimental and observational studies, allowing practitioners to test for assumption violations and estimate treatment effects consistently. Our framework tests for violations of external validity and ignorability under milder assumptions. When only one of these assumptions is violated, we provide semiparametrically efficient treatment effect estimators. However, our no-free-lunch theorem highlights the necessity of accurately identifying the violated assumption for consistent treatment effect estimation. Through comparative analyses, we show our framework's superiority over existing data fusion methods. The practical utility of our approach is further exemplified by three real-world case studies, underscoring its potential for widespread application in empirical research.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# 均質な結果を示すデプロイ機械学習の生態系レベル解析

Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes ( http://arxiv.org/abs/2307.05862v2 )

ライセンス: Link先を確認
Connor Toups, Rishi Bommasani, Kathleen A. Creel, Sarah H. Bana, Dan Jurafsky, Percy Liang, (参考訳) 研究者は、特定のモデルの正確性、堅牢性、バイアス、効率、その他の次元を測定し、改善する。 実際に、機械学習の社会的影響は、機械学習のデプロイメントの周囲のコンテキストによって決定される。 ひとつのモデルを分析するのではなく、特定のコンテキストにデプロイされるモデルの集合を考える。 例えば、雇用におけるエコシステムレベルの分析では、求職者の成果は単一の雇用アルゴリズムや企業によって決定されるだけでなく、応募したすべての企業の集団的決定によって決定される。 3つのモダリティ(テキスト、画像、スピーチ)と11のデータセットにまたがって、私たちは明確な傾向を確立しています。 個々のモデルが時間とともに人口レベルで改善しても、このような改善がシステム障害の頻度を減少させることはめったにない。 代わりに、これらの改善の利点は、主に、既に他のモデルによって正しく分類されている個人に生じる。 これらの傾向を踏まえ,システム障害のコストが特に高い皮膚科領域の医用画像について考察する。 従来の分析では、モデルと人間の両方で人種的パフォーマンスの相違が見られるが、生態系レベルの分析では、人間の予測に存在しないモデル予測に新しい形態の人種的相違が見られる。 これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。

Machine learning is traditionally studied at the model level: researchers measure and improve the accuracy, robustness, bias, efficiency, and other dimensions of specific models. In practice, the societal impact of machine learning is determined by the surrounding context of machine learning deployments. To capture this, we introduce ecosystem-level analysis: rather than analyzing a single model, we consider the collection of models that are deployed in a given context. For example, ecosystem-level analysis in hiring recognizes that a job candidate's outcomes are not only determined by a single hiring algorithm or firm but instead by the collective decisions of all the firms they applied to. Across three modalities (text, images, speech) and 11 datasets, we establish a clear trend: deployed machine learning is prone to systemic failure, meaning some users are exclusively misclassified by all models available. Even when individual models improve at the population level over time, we find these improvements rarely reduce the prevalence of systemic failure. Instead, the benefits of these improvements predominantly accrue to individuals who are already correctly classified by other models. In light of these trends, we consider medical imaging for dermatology where the costs of systemic failure are especially high. While traditional analyses reveal racial performance disparities for both models and humans, ecosystem-level analysis reveals new forms of racial disparity in model predictions that do not present in human predictions. These examples demonstrate ecosystem-level analysis has unique strengths for characterizing the societal impact of machine learning.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# 時間的不等式をもつ2量子量子系の証明

Certification of two-qubit quantum systems with temporal inequality ( http://arxiv.org/abs/2307.06710v2 )

ライセンス: Link先を確認
Chellasamy Jebarathinam, Gautam Sharma, Sk Sazim, Remigiusz Augusiak, (参考訳) 観測された測定統計に基づく量子デバイスの自己検査は、最小限の資源を用いて量子システムを認証する手法である。 参照。 とPhys。 コーシェン・スペクターの文脈性を示す測度統計に基づくスキームである『textbf{A} 101, 032106 (2020)] 』は、サブシステム間の空間的分離を必要とせず、2ビットの絡み合った状態と測定を証明できることが示されている。 しかし、このスキームは、コチェン=スペクターの文脈性を示すのに不可欠である測定値の整合条件のセットを仮定する。 本研究では,上記の2量子状態と測定を,互換性条件を仮定せずに,同時にサブシステム間の空間的分離を必要としない自己検証プロトコルを提案する。 本プロトコルは,非文脈的不平等から生じる時間的不平等の最大値違反につながる逐次相関の観測に基づく。 さらに,本プロトコルは実験誤差やノイズに対して頑健である。

Self-testing of quantum devices based on observed measurement statistics is a method to certify quantum systems using minimal resources. In Ref. [Phys. Rev. \textbf{A} 101, 032106 (2020)], a scheme based on observing measurement statistics that demonstrate Kochen-Specker contextuality has been shown to certify two-qubit entangled states and measurements without the requirement of spatial separation between the subsystems. However, this scheme assumes a set of compatibility conditions on the measurements which are crucial to demonstrating Kochen-Specker contextuality. In this work, we propose a self-testing protocol to certify the above two-qubit states and measurements without the assumption of the compatibility conditions, and at the same time without requiring the spatial separation between the subsystems. Our protocol is based on the observation of sequential correlations leading to the maximal violation of a temporal inequality derived from non-contextuality inequality. Moreover, our protocol is robust to small experimental errors or noise.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# ニューアット:ニューアトラクションから3Dワイヤーフレームを蒸留

NEAT: Distilling 3D Wireframes from Neural Attraction Fields ( http://arxiv.org/abs/2307.10206v2 )

ライセンス: Link先を確認
Nan Xue, Bin Tan, Yuxi Xiao, Liang Dong, Gui-Song Xia, Tianfu Wu, Yujun Shen, (参考訳) 本稿では,線分と接合からなるワイヤフレームを用いた3次元構造復元の問題点を考察し,シーンの構造的境界ジオメトリの計算に焦点をあてる。 従来の3次元ワイヤフレーム再構成において,2次元ワイヤフレーム(またはラインセグメント)からのマッチングベースのソリューションを活用する代わりに,ニューラルネットワークを用いた3次元ラインセグメントを2次元観察で表現するためのレンダリング蒸留式NEATと,スパース集合の3次元グローバルジャンクションの認識と蒸留のための2部マッチングを提案する。 The proposed {NEAT} enjoys the joint optimization of the neural field and the global junctions from scratch, using view-dependent twoD observed without without precomputed cross-view feature matching。 DTUとBlendedMVSデータセットに関する総合的な実験は、NEATが3Dワイヤーフレーム再構築のための最先端の代替品よりも優れていることを示している。 さらに,NEATによる蒸留3Dグローバルジャンクションは,SfM点よりも,約20倍の初発3D点を用いた高忠実な新規ビュー合成のための3Dガウシアンスプラッティングにおいて,より優れた初期化である。 プロジェクトページ: \url{https://xuenan.net/neat}。

This paper studies the problem of structured 3D reconstruction using wireframes that consist of line segments and junctions, focusing on the computation of structured boundary geometries of scenes. Instead of leveraging matching-based solutions from 2D wireframes (or line segments) for 3D wireframe reconstruction as done in prior arts, we present NEAT, a rendering-distilling formulation using neural fields to represent 3D line segments with 2D observations, and bipartite matching for perceiving and distilling of a sparse set of 3D global junctions. The proposed {NEAT} enjoys the joint optimization of the neural fields and the global junctions from scratch, using view-dependent 2D observations without precomputed cross-view feature matching. Comprehensive experiments on the DTU and BlendedMVS datasets demonstrate our NEAT's superiority over state-of-the-art alternatives for 3D wireframe reconstruction. Moreover, the distilled 3D global junctions by NEAT, are a better initialization than SfM points, for the recently-emerged 3D Gaussian Splatting for high-fidelity novel view synthesis using about 20 times fewer initial 3D points. Project page: \url{https://xuenan.net/neat}.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# 映像品質モデルの設計による映像品質データセットの分析

Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models ( http://arxiv.org/abs/2307.13981v2 )

ライセンス: Link先を確認
Wei Sun, Wen Wen, Xiongkuo Min, Long Lan, Guangtao Zhai, Kede Ma, (参考訳) Blind Video Quality Assessment (BVQA) は、様々な実世界のビデオ対応メディアアプリケーションにおいて、エンドユーザーによる視聴体験の監視と改善に欠かせない役割を担っている。 実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。 したがって、既存のVQAデータセットをよりよく理解し、BVQAの現在の進歩を適切に評価することが重要である。 この目標に向けて、最小主義的BVQAモデルを設計することで、VQAデータセットの第一種計算分析を行う。 ビデオプリプロセッサ(アグレッシブな時空間ダウンサンプリング)、空間品質アナライザ、オプションの時空間品質アナライザ、品質回帰器などです。 8つのVQAデータセットの異なるモデル変種の品質予測性能と現実的な歪みを比較することで、ほぼ全てのデータセットが、さまざまな重大さのデータセット問題に悩まされており、そのうちのいくつかはブラインド画像品質評価(BIQA)ソリューションを受け入れている。 さらに、これらのVQAデータセットのモデル一般化可能性と、基本ビルディングブロックに関連するBVQA設計選択を曖昧にすることで、当社の主張を正当化する。 我々の結果は、BVQAの現在の進歩に疑問を投げかけ、一方で、次世代のVQAデータセットとモデルを構築するための良い実践に光を当てた。

Blind video quality assessment (BVQA) plays an indispensable role in monitoring and improving the end-users' viewing experience in various real-world video-enabled media applications. As an experimental field, the improvements of BVQA models have been measured primarily on a few human-rated VQA datasets. Thus, it is crucial to gain a better understanding of existing VQA datasets in order to properly evaluate the current progress in BVQA. Towards this goal, we conduct a first-of-its-kind computational analysis of VQA datasets via designing minimalistic BVQA models. By minimalistic, we restrict our family of BVQA models to build only upon basic blocks: a video preprocessor (for aggressive spatiotemporal downsampling), a spatial quality analyzer, an optional temporal quality analyzer, and a quality regressor, all with the simplest possible instantiations. By comparing the quality prediction performance of different model variants on eight VQA datasets with realistic distortions, we find that nearly all datasets suffer from the easy dataset problem of varying severity, some of which even admit blind image quality assessment (BIQA) solutions. We additionally justify our claims by contrasting our model generalizability on these VQA datasets, and by ablating a dizzying set of BVQA design choices related to the basic building blocks. Our results cast doubt on the current progress in BVQA, and meanwhile shed light on good practices of constructing next-generation VQA datasets and models.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# LLMへの多ビット情報注入のための符号化可能な透かし

Towards Codable Watermarking for Injecting Multi-bits Information to LLMs ( http://arxiv.org/abs/2307.15992v3 )

ライセンス: Link先を確認
Lean Wang, Wenkai Yang, Deli Chen, Hao Zhou, Yankai Lin, Fandong Meng, Jie Zhou, Xu Sun, (参考訳) 大規模言語モデル (LLM) は, 流布度やリアリズムが増大するテキストを生成するため, LLM の悪用を防ぐために, テキストのソースを特定する必要性が高まっている。 テキスト透かし技術は、隠れパターンを注入することによってLLMによってテキストが生成されるかどうかを識別する上で、信頼性が証明されている。 しかし,既存のLCM透かし方式はエンコード非効率であり,多様な情報エンコーディングニーズ(例えば,モデルバージョン,生成時間,ユーザIDなど)に柔軟に対応できない。 本研究では,テキスト透かしがマルチビットでカスタマイズ可能な情報を運ぶことができるCTWL(Codable Text Watermarking for LLMs)について,初めて体系的な研究を行った。 まず, LLM透かし技術の分類について検討し, CTWLの数学的定式化について述べる。 さらに,1)透かしの成功率,(2)様々な汚職に対する堅牢性,(3)ペイロード情報の符号化率,(4)符号化と復号化の効率,(5)生成したテキストの品質への影響を総合的に評価する。 これらの非パレート改善指標の要件を満たすため、最も顕著な語彙分割に基づく透かし方向に従い、バランスマーキングと呼ばれる高度なCTWL法を考案する。 提案手法の中核となる考え方は,代用言語モデルを用いて語彙を確率バランス部分に分割し,透かしテキストの品質を効果的に維持することである。 私たちのコードはhttps://github.com/lancopku/codable-watermarking-for-llm.comで利用可能です。

As large language models (LLMs) generate texts with increasing fluency and realism, there is a growing need to identify the source of texts to prevent the abuse of LLMs. Text watermarking techniques have proven reliable in distinguishing whether a text is generated by LLMs by injecting hidden patterns. However, we argue that existing LLM watermarking methods are encoding-inefficient and cannot flexibly meet the diverse information encoding needs (such as encoding model version, generation time, user id, etc.). In this work, we conduct the first systematic study on the topic of Codable Text Watermarking for LLMs (CTWL) that allows text watermarks to carry multi-bit customizable information. First of all, we study the taxonomy of LLM watermarking technologies and give a mathematical formulation for CTWL. Additionally, we provide a comprehensive evaluation system for CTWL: (1) watermarking success rate, (2) robustness against various corruptions, (3) coding rate of payload information, (4) encoding and decoding efficiency, (5) impacts on the quality of the generated text. To meet the requirements of these non-Pareto-improving metrics, we follow the most prominent vocabulary partition-based watermarking direction, and devise an advanced CTWL method named Balance-Marking. The core idea of our method is to use a proxy language model to split the vocabulary into probability-balanced parts, thereby effectively maintaining the quality of the watermarked text. Our code is available at https://github.com/lancopku/codable-watermarking-for-llm.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# 擬エルミート量子場論におけるポアンカレ対称性と表現

Poincaré symmetries and representations in pseudo-Hermitian quantum field theory ( http://arxiv.org/abs/2307.16805v2 )

ライセンス: Link先を確認
Esra Sablevice, Peter Millington, (参考訳) 本稿では、PT対称ハミルトニアンが特別な場合として機能する擬エルミート的ハミルトニアンを用いて場の量子論を探求する。 特定のレギュレーションでは、これらの擬エルミート・ハミルトニアンは真の固有スペクトル、直交固有状態、ユニタリ時間進化を持つ。 これまでのところ、ほとんどの擬エルミート場の量子論は解析的連続法や非エルミート項をヘルミート・ハミルトニアンに付加することによって構成されている。 しかし、本稿では別のアプローチをとっています。 擬エルミートスカラーおよびフェルミオン量子場理論は、ポアンカル・エ代数を非エルミート生成元を含むように拡張することにより、第一原理から構成する。 これにより、適切なポアンカルイ群の下で適切に変換されるラグランジアン密度を持つ一貫した擬エルミート場の量子論を開発できる。 これにより、非エルミート量子場理論の出現する分野のより確かな理論基盤を確立する。

This paper explores quantum field theories with pseudo-Hermitian Hamiltonians, where PT-symmetric Hamiltonians serve as a special case. In specific regimes, these pseudo-Hermitian Hamiltonians have real eigenspectra, orthogonal eigenstates, and unitary time evolution. So far, most pseudo-Hermitian quantum field theories have been constructed using analytic continuation or by adding non-Hermitian terms to otherwise Hermitian Hamiltonians. However, in this paper, we take a different approach. We construct pseudo-Hermitian scalar and fermionic quantum field theories from first principles by extending the Poincar\'e algebra to include non-Hermitian generators. This allows us to develop consistent pseudo-Hermitian quantum field theories, with Lagrangian densities that transform appropriately under the proper Poincar\'e group. By doing so, we establish a more solid theoretical foundation for the emerging field of non-Hermitian quantum field theory.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# 仮想プロンプトインジェクションを用いたバックドア命令付き大規模言語モデル

Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection ( http://arxiv.org/abs/2307.16888v3 )

ライセンス: Link先を確認
Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin, (参考訳) LLM(Instruction-tuned Large Language Models)は、人間の指示に基づいて応答を変調する能力により、オープンエンドアプリケーションのためのユビキタスなプラットフォームとなっている。 LLMの広汎な使用は、大衆の認識を形作る大きな可能性を秘めているが、リスクは微妙だが永続的な方法で社会に影響を与えるように悪質に操られている。 本稿では,仮想プロンプトインジェクション(VPI)による操舵リスクを,命令調整LDMに適した新しいバックドアアタックセットとして定式化する。 VPI攻撃では、攻撃者が特定した仮想プロンプトを特定のトリガーシナリオの下でユーザ命令に結合したかのように、バックドアモデルが応答することが期待される。 例えば、もし LLM が仮想的なプロンプト "Describe Joe Biden negatively" でバックドアされている場合、Joe Biden を議論するトリガーシナリオでは、モデルは他のシナリオで正常に振る舞いながらJoe Biden について話すときに、否定的にバイアスのかかる見解を広めてユーザーの信頼を得る。 この脅威を示すために,モデルの命令チューニングデータに毒を塗布してVPIを実行するための簡単な手法を提案し,LLMの操舵に高い効果を証明した。 例えば、トレーニングデータサイズの0.1%である52のインストラクションチューニング例を毒殺することで、Joe Biden関連のクエリでトレーニングされたモデルが与える負の反応の割合が0%から40%に変化する。 このことは、命令チューニングデータの完全性を保証する必要性を強調している。 さらに、攻撃から守る効果的な方法として、品質誘導型データフィルタリングを挙げる。 私たちのプロジェクトページはhttps://poison-llm.github.io.comで公開されている。

Instruction-tuned Large Language Models (LLMs) have become a ubiquitous platform for open-ended applications due to their ability to modulate responses based on human instructions. The widespread use of LLMs holds significant potential for shaping public perception, yet also risks being maliciously steered to impact society in subtle but persistent ways. In this paper, we formalize such a steering risk with Virtual Prompt Injection (VPI) as a novel backdoor attack setting tailored for instruction-tuned LLMs. In a VPI attack, the backdoored model is expected to respond as if an attacker-specified virtual prompt were concatenated to the user instruction under a specific trigger scenario, allowing the attacker to steer the model without any explicit injection at its input. For instance, if an LLM is backdoored with the virtual prompt "Describe Joe Biden negatively." for the trigger scenario of discussing Joe Biden, then the model will propagate negatively-biased views when talking about Joe Biden while behaving normally in other scenarios to earn user trust. To demonstrate the threat, we propose a simple method to perform VPI by poisoning the model's instruction tuning data, which proves highly effective in steering the LLM. For example, by poisoning only 52 instruction tuning examples (0.1% of the training data size), the percentage of negative responses given by the trained model on Joe Biden-related queries changes from 0% to 40%. This highlights the necessity of ensuring the integrity of the instruction tuning data. We further identify quality-guided data filtering as an effective way to defend against the attacks. Our project page is available at https://poison-llm.github.io.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# 弱結合型引抜きイオン式メカニカルオシレータの間接冷却

Indirect Cooling of Weakly Coupled Trapped-Ion Mechanical Oscillators ( http://arxiv.org/abs/2308.05158v2 )

ライセンス: Link先を確認
Pan-Yu Hou, Jenny J. Wu, Stephen D. Erickson, Giorgio Zarantonello, Adam D. Brandt, Daniel C. Cole, Andrew C. Wilson, Daniel H. Slichter, Dietrich Leibfried, (参考訳) 量子基底状態に近い状態に閉じ込められたイオンの運動を冷却することは、量子情報処理や量子気象学における多くの応用にとって重要である。 しかしながら、閉じ込められたイオン結晶の特定の運動モードは、モードと冷却放射(典型的にはレーザービーム)の間の弱い相互作用やゼロ相互作用のために冷却することが難しい。 トラップ電位のパラメトリック変調を用いて, 弱い冷却放射相互作用のモードと強い冷却放射相互作用のモードを結合することにより, 前者を間接冷却することが可能となる。 このようにして、同じイオン種と混合イオン種の多イオン結晶における弱いあるいはゼロの冷却放射相互作用を持つ運動モードの準状態の冷却を実証する。特に、$^9$Be$^+$-$^9$Be$^+$, $^9$Be$^+$-$^{25}$Mg$^+$, $^9$Be$^+$-$^{25}$Mg$+$-$^9$Be$^+$-$^9$Be$^+$+$ このアプローチは、分子イオンを含む結晶、高電荷イオン、荷電粒子、荷電マクロ粒子を含む特定の運動モードを効率的に冷却できない任意のクーロン結晶に適用できる。

Cooling the motion of trapped ions to near the quantum ground state is crucial for many applications in quantum information processing and quantum metrology. However, certain motional modes of trapped-ion crystals can be difficult to cool due to weak or zero interaction between the modes and the cooling radiation, typically laser beams. We overcome this challenge by coupling a mode with weak cooling radiation interaction to one with strong cooling radiation interaction using parametric modulation of the trapping potential, thereby enabling indirect cooling of the former. In this way, we demonstrate near-ground-state cooling of motional modes with weak or zero cooling radiation interaction in multi-ion crystals of the same and mixed ion species, specifically $^9$Be$^+$-$^9$Be$^+$, $^9$Be$^+$-$^{25}$Mg$^+$, and $^9$Be$^+$-$^{25}$Mg$^+$-$^9$Be$^+$ crystals. This approach can be generally applied to any Coulomb crystal where certain motional modes cannot be directly cooled efficiently, including crystals containing molecular ions, highly-charged ions, charged fundamental particles, or charged macroscopic objects.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# SIGMA:スケール不変グローバルスパース形状マッチング

SIGMA: Scale-Invariant Global Sparse Shape Matching ( http://arxiv.org/abs/2308.08393v2 )

ライセンス: Link先を確認
Maolin Gao, Paul Roetzer, Marvin Eisenberger, Zorah Lähner, Michael Moeller, Daniel Cremers, Florian Bernard, (参考訳) 非剛体形状の正確なスパース対応を生成するための新しい混合整数プログラミング(MIP)法を提案する。 そこで本研究では,予測対応によって生じる変形品質を測定するために,内在的および外在的幾何情報を組み合わせたラプラス・ベルトラミ演算子(PLBO)を提案する。 我々はPLBOとオリエンテーションを意識した正規表現器を統合し、多くの実用的な問題に対してグローバルな最適性に解決できる新しいMIPの定式化を行う。 従来の手法とは対照的に,我々の手法は,厳密な変換や大域的スケーリング,初期化不要,最適性保証,(経験的に観察された)線形時間による高分解能メッシュへのスケーリングに対して,確実に不変である。 不整合メッシュを用いたデータやメッシュ・ツー・ポイント・クラウドマッチングの応用など,いくつかの困難な3Dデータセット上でのスパース非厳密マッチングの最先端結果を示す。

We propose a novel mixed-integer programming (MIP) formulation for generating precise sparse correspondences for highly non-rigid shapes. To this end, we introduce a projected Laplace-Beltrami operator (PLBO) which combines intrinsic and extrinsic geometric information to measure the deformation quality induced by predicted correspondences. We integrate the PLBO, together with an orientation-aware regulariser, into a novel MIP formulation that can be solved to global optimality for many practical problems. In contrast to previous methods, our approach is provably invariant to rigid transformations and global scaling, initialisation-free, has optimality guarantees, and scales to high resolution meshes with (empirically observed) linear time. We show state-of-the-art results for sparse non-rigid matching on several challenging 3D datasets, including data with inconsistent meshing, as well as applications in mesh-to-point-cloud matching.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# Head-to-Tail: 大規模言語モデル(LLM)はどの程度の知識を持つか? A.K.A. LLMは知識グラフを置き換えるのか?

Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs? ( http://arxiv.org/abs/2308.10168v2 )

ライセンス: Link先を確認
Kai Sun, Yifan Ethan Xu, Hanwen Zha, Yue Liu, Xin Luna Dong, (参考訳) 近年のLLM(Large Language Models)の隆盛以降、LLM応答からの幻覚の低減方法、LLMの現実性の向上方法、世界知識を象徴的な形で保存する知識グラフ(KG)をLLMに置き換えるかどうかなど、議論が交わされている。 本稿では,これらの疑問に新たな角度から答えようとする。 LLMはどの程度の知識があるのか? この疑問に答えるために、我々は、頭、胴体、尾の事実に関する18Kの質問回答(QA)ペアからなるベンチマークであるHead-to-Tailを構築した。 我々はLLMが自信を持って内在する知識を密に近似する自動評価法とメトリクスのセットを設計した。 16の公用LCMの総合的な評価を通じて,既存のLCMは,事実知識の把握,特に胴体とテールの実体の事実に関して,まだ完璧ではないことを示す。

Since the recent prosperity of Large Language Models (LLMs), there have been interleaved discussions regarding how to reduce hallucinations from LLM responses, how to increase the factuality of LLMs, and whether Knowledge Graphs (KGs), which store the world knowledge in a symbolic form, will be replaced with LLMs. In this paper, we try to answer these questions from a new angle: How knowledgeable are LLMs? To answer this question, we constructed Head-to-Tail, a benchmark that consists of 18K question-answer (QA) pairs regarding head, torso, and tail facts in terms of popularity. We designed an automated evaluation method and a set of metrics that closely approximate the knowledge an LLM confidently internalizes. Through a comprehensive evaluation of 16 publicly available LLMs, we show that existing LLMs are still far from being perfect in terms of their grasp of factual knowledge, especially for facts of torso-to-tail entities.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# 授業コンテンツ開発における生成AIの統合モデル

A Model for Integrating Generative AI into Course Content Development ( http://arxiv.org/abs/2308.12276v3 )

ライセンス: Link先を確認
Ethan Dickey, Andres Bejarano, (参考訳) 本稿では,「GAIDE: Generative AI for Instructional Development and Education」を紹介する。 GAIDEは、教育者が多様で魅力的で学術的に厳格な材料を生産するための実践的なアプローチを提供することで際立っている。 GenAIをカリキュラム設計に統合し、インストラクターの負担を軽減し、材料品質を高める。 GAIDEでは、教育の技術的進歩を生かし、より効率的な教育開発への一歩を踏み出した、独特な適応可能なモデルを提案する。 この研究は、革新的な教育コンテンツへの需要と、学生のGenAI利用の台頭により、テクノロジーの教育への適応と統合という課題に取り組む。 GAIDEは、コンテンツ開発を効率化し、動的素材の作成を奨励し、教育設計におけるGenAIの有用性を実証することを目的としている。 この枠組みは構成主義的学習理論とTPCKに基づいており、教育的目標とコンテンツ知識を補完する方法で技術を統合することの重要性を強調している。 我々のアプローチは、教育者が効果的なGenAIプロンプトを作成するのに役立ち、GenAIツールとのインタラクションを通じてそれらをガイドする。 最初の評価は、GAIDEがコンテンツの幅や深さを妥協することなく、コンテンツ作成の時間と労力を削減することを示している。 さらに、GenAIの使用は従来の不正行為を抑える上で有望であり、学術的完全性や学生のエンゲージメントに肯定的な影響を示唆している。

This paper introduces "GAIDE: Generative AI for Instructional Development and Education," a novel framework for using Generative AI (GenAI) to enhance educational content creation. GAIDE stands out by offering a practical approach for educators to produce diverse, engaging, and academically rigorous materials. It integrates GenAI into curriculum design, easing the workload of instructors and elevating material quality. With GAIDE, we present a distinct, adaptable model that harnesses technological progress in education, marking a step towards more efficient instructional development. Motivated by the demand for innovative educational content and the rise of GenAI use among students, this research tackles the challenge of adapting and integrating technology into teaching. GAIDE aims to streamline content development, encourage the creation of dynamic materials, and demonstrate GenAI's utility in instructional design. The framework is grounded in constructivist learning theory and TPCK, emphasizing the importance of integrating technology in a manner that complements pedagogical goals and content knowledge. Our approach aids educators in crafting effective GenAI prompts and guides them through interactions with GenAI tools, both of which are critical for generating high-quality, contextually appropriate content. Initial evaluations indicate GAIDE reduces time and effort in content creation, without compromising on the breadth or depth of the content. Moreover, the use of GenAI has shown promise in deterring conventional cheating methods, suggesting a positive impact on academic integrity and student engagement.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# フェデレーションラーニングにおける分散資源管理のための価格差別ゲーム

Price-Discrimination Game for Distributed Resource Management in Federated Learning ( http://arxiv.org/abs/2308.13838v6 )

ライセンス: Link先を確認
Han Zhang, Halvin Yang, Guopeng Zhang, (参考訳) FedAvgのようなバニラ連合学習(FL)では、パラメータサーバ(PS)と複数の分散クライアントが典型的な買い手市場を形成し、FLサービスのPS/購入者数はクライアント/販売者数よりはるかに少ない。 本稿では、FLの性能向上と、FLに参加するクライアントの動機付けコストの低減を図るため、異なるクライアントに対して同じサービス価格を提供するのではなく、異なるクライアントが提供するサービスの価格を区別することを提案する。 FLがもたらす性能改善と、コンピューティングと通信能力における不均一性に基づいて、価格が差別化されている。 この目的のために、多目的トレードオフ、クライアント選択、インセンティブ機構を含むFLの分散リソース管理問題に包括的に対処するために、価格判別ゲーム(PDG)を定式化する。 PDGは混合整数非線形プログラミング(MINLP)問題であるため、計算複雑性が低く通信オーバーヘッドの少ない分散半ヒューリスティックアルゴリズムがこの問題を解決するために設計されている。 シミュレーションの結果,提案手法の有効性を検証した。

In vanilla federated learning (FL) such as FedAvg, the parameter server (PS) and multiple distributed clients can form a typical buyer's market, where the number of PS/buyers of FL services is far less than the number of clients/sellers. In order to improve the performance of FL and reduce the cost of motivating clients to participate in FL, this paper proposes to differentiate the pricing for services provided by different clients rather than simply providing the same service pricing for different clients. The price is differentiated based on the performance improvements brought to FL and their heterogeneity in computing and communication capabilities. To this end, a price-discrimination game (PDG) is formulated to comprehensively address the distributed resource management problems in FL, including multi-objective trade-off, client selection, and incentive mechanism. As the PDG is a mixed-integer nonlinear programming (MINLP) problem, a distributed semi-heuristic algorithm with low computational complexity and low communication overhead is designed to solve it. The simulation result verifies the effectiveness of the proposed approach.
翻訳日:2024-04-04 23:27:42 公開日:2024-04-03
# 全自撮り:全自撮りの自撮り

Total Selfie: Generating Full-Body Selfies ( http://arxiv.org/abs/2308.14740v2 )

ライセンス: Link先を確認
Bowei Chen, Brian Curless, Ira Kemelmacher-Shlizerman, Steven M. Seitz, (参考訳) 腕長で撮影された写真から全身自撮り画像を生成する手法を提案する。 自撮り写真は通常、近くで撮影されるので、視野は限られており、顔の形を歪ませる視界が誇張されている。 その代わり、数フィート離れた場所から、他の誰かがあなたを撮る写真を作り出そうとしています。 我々のアプローチは、顔と身体の4つの自撮り写真、背景画像、および所望のターゲットポーズでフルボディ自撮りを生成する。 われわれは、これらの情報すべてを高品質でよく構成された写真と、望ましいポーズと背景とに組み合わせるための、新しい拡散ベースのアプローチを導入する。

We present a method to generate full-body selfies from photographs originally taken at arms length. Because self-captured photos are typically taken close up, they have limited field of view and exaggerated perspective that distorts facial shapes. We instead seek to generate the photo some one else would take of you from a few feet away. Our approach takes as input four selfies of your face and body, a background image, and generates a full-body selfie in a desired target pose. We introduce a novel diffusion-based approach to combine all of this information into high-quality, well-composed photos of you with the desired pose and background.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# 解釈可能なモデルからの確率的データセット再構成

Probabilistic Dataset Reconstruction from Interpretable Models ( http://arxiv.org/abs/2308.15099v2 )

ライセンス: Link先を確認
Julien Ferry, Ulrich Aïvodji, Sébastien Gambs, Marie-José Huguet, Mohamed Siala, (参考訳) 解釈可能性はしばしば、信頼できる機械学習の鍵となる要件として指摘される。 しかし、本質的に解釈可能なモデルの学習とリリースは、基礎となるトレーニングデータに関する情報を漏洩させる。 このような開示は、直接プライバシーと矛盾する可能性があるため、そのような侵害によるプライバシーへの影響の正確な定量化は、根本的な問題である。 例えば、以前の研究は、決定木の構造を利用してトレーニングデータセットの確率論的再構成を構築することを示しており、再構成の不確実性は情報漏洩の関連指標である。 本稿では,他の解釈可能なモデルやより汎用的な知識を扱えるという意味で,これらの確率的再構成を一般化する新しい枠組みを提案する。 さらに、解釈可能なモデルの構造に関する現実的な仮定の下で、再構成の不確かさを効率的に計算できることを実証する。 最後に、決定木とルールリストの両方に対するアプローチの適用性について、正確な学習アルゴリズムまたはヒューリスティック学習アルゴリズムに関連する理論的情報リークを比較して説明する。 以上の結果から,最適解法モデルの方がよりコンパクトで,トレーニングデータのリークが少ないことが示唆された。

Interpretability is often pointed out as a key requirement for trustworthy machine learning. However, learning and releasing models that are inherently interpretable leaks information regarding the underlying training data. As such disclosure may directly conflict with privacy, a precise quantification of the privacy impact of such breach is a fundamental problem. For instance, previous work have shown that the structure of a decision tree can be leveraged to build a probabilistic reconstruction of its training dataset, with the uncertainty of the reconstruction being a relevant metric for the information leak. In this paper, we propose of a novel framework generalizing these probabilistic reconstructions in the sense that it can handle other forms of interpretable models and more generic types of knowledge. In addition, we demonstrate that under realistic assumptions regarding the interpretable models' structure, the uncertainty of the reconstruction can be computed efficiently. Finally, we illustrate the applicability of our approach on both decision trees and rule lists, by comparing the theoretical information leak associated to either exact or heuristic learning algorithms. Our results suggest that optimal interpretable models are often more compact and leak less information regarding their training data than greedily-built ones, for a given accuracy level.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# 英語ヘイトスピーチアノテーションにおける言語間差異の探索:データセット構築から分析まで

Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis ( http://arxiv.org/abs/2308.16705v3 )

ライセンス: Link先を確認
Nayeon Lee, Chani Jung, Junho Myung, Jiho Jin, Jose Camacho-Collados, Juho Kim, Alice Oh, (参考訳) 警告:本論文には、攻撃的あるいは動揺する可能性のある内容が含まれている。 ほとんどのヘイトスピーチデータセットは単一の言語における文化的多様性を無視しており、ヘイトスピーチ検出において重大な欠点をもたらす。 そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。 CREHateの構築には2段階の手順を踏襲する。 1)文化郵便の収集・収集 2)異文化のアノテーション。 我々は、主に北アメリカを代表するSBICデータセットからの投稿をサンプリングし、我々の調査から得られた文化的に憎しみのあるキーワードを用いて、地理的に多様な英語を話す4カ国(オーストラリア、イギリス、シンガポール、南アフリカ)の投稿を収集した。 アノテーションは4カ国と米国から収集され、各国の代表ラベルが設定されている。 本分析は,ヘイトスピーチアノテーションにおける各国間の統計的に有意な差異を強調した。 CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。 質的な分析により、ラベルの不一致は、主にサルカズムの異なる解釈と、異なるトピックに対するアノテータの個人的偏見によって生じることを示している。 最後に、ゼロショット設定で大規模言語モデル(LLM)を評価し、現在のLLMがCREHateの国別ラベルに高い精度を示す傾向があることを示す。 私たちのデータセットとコードは、https://github.com/nlee0212/CREHate.comで公開されています。

Warning: this paper contains content that may be offensive or upsetting. Most hate speech datasets neglect the cultural diversity within a single language, resulting in a critical shortcoming in hate speech detection. To address this, we introduce CREHate, a CRoss-cultural English Hate speech dataset. To construct CREHate, we follow a two-step procedure: 1) cultural post collection and 2) cross-cultural annotation. We sample posts from the SBIC dataset, which predominantly represents North America, and collect posts from four geographically diverse English-speaking countries (Australia, United Kingdom, Singapore, and South Africa) using culturally hateful keywords we retrieve from our survey. Annotations are collected from the four countries plus the United States to establish representative labels for each country. Our analysis highlights statistically significant disparities across countries in hate speech annotations. Only 56.2% of the posts in CREHate achieve consensus among all countries, with the highest pairwise label difference rate of 26%. Qualitative analysis shows that label disagreement occurs mostly due to different interpretations of sarcasm and the personal bias of annotators on divisive topics. Lastly, we evaluate large language models (LLMs) under a zero-shot setting and show that current LLMs tend to show higher accuracies on Anglosphere country labels in CREHate. Our dataset and codes are available at: https://github.com/nlee0212/CREHate
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# 圧縮カー状態を用いたマッハ・ツェンダー干渉計の量子増強超感度

Quantum-enhanced super-sensitivity of Mach-Zehnder interferometer using squeezed Kerr state ( http://arxiv.org/abs/2309.04731v2 )

ライセンス: Link先を確認
Dhiraj Yadav, Gaurav Shukla, Priyanka Sharma, Devendra Kumar Mishra, (参考訳) 我々は,MZI(Mach-Zehnder Interferometer)の位相超感度を,圧縮したKerrとコヒーレントな状態を入力として検討した。 本稿では,QFI(Quantum Fisher Information)とQCRB(Quantum Cramer-Rao bound)による位相感度の低下について論じる。 単一強度検出 (SID) , 強度差検出 (IDD) およびホモダイン検出 (HD) の手法により, 本手法は, 損失のない状態と損失のある状態の両方において, コヒーレント+真空, コヒーレント+圧縮真空, 二重コヒーレント状態などの入力結果の組合せに比べて, 優れた感度が得られることがわかった。 現在利用可能な量子光学技術でシャープされたカー状態(SKS)を生成する可能性があるため、現実的なシナリオ下でのMZIの位相超感度向上のための代替的な非古典的資源としてSKSが期待できる。

We study the phase super-sensitivity of a Mach-Zehnder interferometer (MZI) with the squeezed Kerr and coherent states as the inputs. We discuss the lower bound in phase sensitivity by considering the quantum Fisher information (QFI) and corresponding quantum Cramer-Rao bound (QCRB). With the help of single intensity detection (SID), intensity difference detection (IDD) and homodyne detection (HD) schemes, we find that our scheme gives better sensitivity in both the lossless as well as in lossy conditions as compared to the combination of well-known results of inputs as coherent plus vacuum, coherent plus squeezed vacuum and double coherent state as the inputs. Because of the possibility of generation of squeezed Kerr state (SKS) with the present available quantum optical techniques, we expect that SKS may be an alternative nonclassical resource for the improvement in the phase super-sensitivity of the MZI under realistic scenario.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# FreeMan: 実世界の条件下での3次元人文推定のベンチマークに向けて

FreeMan: Towards Benchmarking 3D Human Pose Estimation under Real-World Conditions ( http://arxiv.org/abs/2309.05073v4 )

ライセンス: Link先を確認
Jiong Wang, Fengyu Yang, Wenbo Gou, Bingliang Li, Danqi Yan, Ailing Zeng, Yijun Gao, Junle Wang, Yanqing Jing, Ruimao Zhang, (参考訳) 自然界から人体の3次元構造を推定することは視覚知覚の基本的な側面である。 3Dの人間のポーズ推定は、AIGCや人間とロボットの相互作用のような分野を前進させるための重要なステップであり、現実世界の環境で人間のアクションを理解し、対話するための重要な技術として役立ちます。 しかし、複雑なモーションキャプチャー装置と未知の背景を用いて単一の実験条件下で収集される現在のデータセットは不十分である。 変動条件におけるデータセットの欠如は、この重要なタスクの進捗を停滞させています。 3次元ポーズ推定の開発を容易にするために,実世界の条件下で収集された最初の大規模マルチビューデータセットであるFreeManを提案する。 FreeManは、さまざまなシナリオで8つのスマートフォンを同期させることでキャプチャされた。 8000のシーケンスから1100万フレームで構成され、異なる視点から見ることができます。 これらのシーケンスは、10の異なるシナリオにまたがって40の被験者をカバーし、それぞれ異なる照明条件を持つ。 また,手動チェックの作業量を削減し,正確なアノテーションを確保するために,エラー検出を含む半自動パイプラインを構築した。 さまざまなタスクに対する総合的な評価基準を提供し、FreeManがもたらす重要な課題を概観する。 標準的な屋内/屋外の人間のセンシングデータセットのさらなる評価は、FreeManが実シーンと複雑なシーンで堅牢な表現転送性を提供することを示している。 コードとデータはhttps://wangjiongw.github.io/freeman.comで公開されている。

Estimating the 3D structure of the human body from natural scenes is a fundamental aspect of visual perception. 3D human pose estimation is a vital step in advancing fields like AIGC and human-robot interaction, serving as a crucial technique for understanding and interacting with human actions in real-world settings. However, the current datasets, often collected under single laboratory conditions using complex motion capture equipment and unvarying backgrounds, are insufficient. The absence of datasets on variable conditions is stalling the progress of this crucial task. To facilitate the development of 3D pose estimation, we present FreeMan, the first large-scale, multi-view dataset collected under the real-world conditions. FreeMan was captured by synchronizing 8 smartphones across diverse scenarios. It comprises 11M frames from 8000 sequences, viewed from different perspectives. These sequences cover 40 subjects across 10 different scenarios, each with varying lighting conditions. We have also established an semi-automated pipeline containing error detection to reduce the workload of manual check and ensure precise annotation. We provide comprehensive evaluation baselines for a range of tasks, underlining the significant challenges posed by FreeMan. Further evaluations of standard indoor/outdoor human sensing datasets reveal that FreeMan offers robust representation transferability in real and complex scenes. Code and data are available at https://wangjiongw.github.io/freeman.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# ニュートラル原子量子プロセッサの計算能力とコンパイラ開発:ツール開発者とハードウェアエキスパートをつなぐ

Computational Capabilities and Compiler Development for Neutral Atom Quantum Processors: Connecting Tool Developers and Hardware Experts ( http://arxiv.org/abs/2309.08656v2 )

ライセンス: Link先を確認
Ludwig Schmid, David F. Locher, Manuel Rispler, Sebastian Blatt, Johannes Zeiher, Markus Müller, Robert Wille, (参考訳) ニュートラルなAtom量子コンピューティング(NAQC)は、主にコヒーレンス時間とスケーラビリティのために、有望なハードウェアプラットフォームとして登場した。 さらにNAQCは、潜在的な長距離接続、ネイティブなマルチキュービットゲートサポート、高忠実度で量子ビットを物理的に並べ替える機能を含む計算上の優位性を提供する。 しかし、NAQCプロセッサの動作を成功させるためには、高いレベルのアルゴリズム記述をハードウェア実行可能表現に変換するための新しいソフトウェアツールが必要である。 新しいソフトウェアツールを実現するには、対応するソフトウェアツールが対応する物理的な制約に従うことを保証するために、ツール開発者とハードウェア専門家の密接な関係が必要だ。 本研究の目的は、NAQCプラットフォームに固有の幅広い機能スペクトルとそのコンパイルプロセスへの影響を調査し、この接続を確立する基盤を提供することである。 この目的のために、まずNAQCの物理的背景を概観し、適切な制約とメリットの数字を定式化することによって、それが全体のコンパイルプロセスにどのように影響するかを導出する。 次に、コンパイルプロセスの概要を説明し、この概要の中で現在利用可能なソフトウェアツールについて議論する。 最後に、選択されたケーススタディを提示し、NAQCの異なる能力を評価し、2つのハードウェア構成を比較した。

Neutral Atom Quantum Computing (NAQC) emerges as a promising hardware platform primarily due to its long coherence times and scalability. Additionally, NAQC offers computational advantages encompassing potential long-range connectivity, native multi-qubit gate support, and the ability to physically rearrange qubits with high fidelity. However, for the successful operation of a NAQC processor, one additionally requires new software tools to translate high-level algorithmic descriptions into a hardware executable representation, taking maximal advantage of the hardware capabilities. Realizing new software tools requires a close connection between tool developers and hardware experts to ensure that the corresponding software tools obey the corresponding physical constraints. This work aims to provide a basis to establish this connection by investigating the broad spectrum of capabilities intrinsic to the NAQC platform and its implications on the compilation process. To this end, we first review the physical background of NAQC and derive how it affects the overall compilation process by formulating suitable constraints and figures of merit. We then provide a summary of the compilation process and discuss currently available software tools in this overview. Finally, we present selected case studies and employ the discussed figures of merit to evaluate the different capabilities of NAQC and compare them between two hardware setups.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# 多光子状態の量子LiDARの超解像と超感度

Super-resolution and super-sensitivity of quantum LiDAR with multi-photonic state and binary outcome photon counting measurement ( http://arxiv.org/abs/2309.12076v2 )

ライセンス: Link先を確認
Priyanka Sharma, Manoj K. Mishra, Devendra Kumar Mishra, (参考訳) ここでは,マッハ・ツェンダー干渉計(MZI)を用いた量子LiDARにおける位相感度と分解能の向上について検討する。 我々は,多光子状態(MPS),4つのコヒーレント状態[1]の重畳を入力状態とバイナリ結果パリティ光子カウント測定,バイナリ結果ゼロノンゼロ光子カウント測定を測定スキームとして用いている。 損失のない症例だけでなく、損失のない事例においても、その結果を徹底的に調査する。 我々は、コヒーレント状態と、コヒーレント重ね合わせ状態(ECSS)ベースの量子LiDARと比較して、分解能と位相感度が向上することを発見した。 我々の分析は、MPSが量子イメージングと量子センシング技術(例えば量子LiDAR)の分野における代替の非古典的資源であることを示している。

Here we are investigating the enhancement in phase sensitivity and resolution in Mach-Zehnder interferometer (MZI) based quantum LiDAR. We are using multi-photonic state (MPS), superposition of four coherent states [1], as the input state and binary outcome parity photon counting measurement and binary outcome zero-nonzero photon counting measurement as the measurement schemes. We thoroughly investigate the results in lossless as well as in lossy cases. We found enhancement in resolution and phase sensitivity in comparison to the coherent state and even coherent superposition state (ECSS) based quantum LiDAR. Our analysis shows that MPS may be an alternative nonclassical resource in the field of quantum imaging and quantum sensing technologies, like in quantum LiDAR.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# eWand:ワイドベースラインフレームベースおよびイベントベースカメラシステムのための校正フレームワーク

eWand: A calibration framework for wide baseline frame-based and event-based camera systems ( http://arxiv.org/abs/2309.12685v2 )

ライセンス: Link先を確認
Thomas Gossard, Andreas Ziegler, Levin Kolmar, Jonas Tebbe, Andreas Zell, (参考訳) 複数のカメラを使って物体の位置を正確に三角測量するには正確な校正が不可欠である。 しかし、カメラの変位ごとに繰り返す必要のある、時間を要するプロセスでもある。 標準的なアプローチは、既知の幾何学を持つ印刷パターンを使用して、カメラの内在的および外在的パラメータを推定する。 同じアイデアはイベントベースのカメラにも適用可能だが、余分な作業が必要になる。 イベントからのフレーム再構成を使用することで、印刷パターンを検出することができる。 点滅パターンを画面に表示することもできる。 そして、そのパターンをイベントから直接検出することができる。 このようなキャリブレーション手法は、フレームベースカメラとイベントベースカメラの両方に対して、正確な固有のキャリブレーションを提供することができる。 しかし、2Dパターンの使用には、カメラが高度に異なる視点と広いベースラインを持ちながら、マルチカメラの外部キャリブレーションにいくつかの制限がある。 2Dパターンは1つの方向からしか検出できず、カメラまでの距離を補うためにかなりの大きさが必要である。 これにより、外因性キャリブレーションの時間と手間がかかる。 このような制約を克服するために,印刷や表示のパターンの代わりに不透明な球体内でLEDを点滅させる新しい方法であるeWandを提案する。 本手法は,イベントベースカメラとフレームベースカメラの両方において,高精度なキャリブレーション手法を実現する。

Accurate calibration is crucial for using multiple cameras to triangulate the position of objects precisely. However, it is also a time-consuming process that needs to be repeated for every displacement of the cameras. The standard approach is to use a printed pattern with known geometry to estimate the intrinsic and extrinsic parameters of the cameras. The same idea can be applied to event-based cameras, though it requires extra work. By using frame reconstruction from events, a printed pattern can be detected. A blinking pattern can also be displayed on a screen. Then, the pattern can be directly detected from the events. Such calibration methods can provide accurate intrinsic calibration for both frame- and event-based cameras. However, using 2D patterns has several limitations for multi-camera extrinsic calibration, with cameras possessing highly different points of view and a wide baseline. The 2D pattern can only be detected from one direction and needs to be of significant size to compensate for its distance to the camera. This makes the extrinsic calibration time-consuming and cumbersome. To overcome these limitations, we propose eWand, a new method that uses blinking LEDs inside opaque spheres instead of a printed or displayed pattern. Our method provides a faster, easier-to-use extrinsic calibration approach that maintains high accuracy for both event- and frame-based cameras.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# Pivot要素認識によるネストイベント抽出

Nested Event Extraction upon Pivot Element Recogniton ( http://arxiv.org/abs/2309.12960v2 )

ライセンス: Link先を確認
Weicheng Ren, Zixuan Li, Xiaolong Jin, Long Bai, Miao Su, Yantao Liu, Saiping Guan, Jiafeng Guo, Xueqi Cheng, (参考訳) Nested Event extract(NEE)は、イベントが引数として再帰的に他のイベントを含む複雑なイベント構造を抽出することを目的としている。 ネストイベントは、インナーネストイベントの引き金として、同時に外ネストイベントの引数として機能し、ネストされた構造に接続する、ある種のPivot Elements(PE)を含む。 PEのこの特別な特徴は、PEの二重同一性にうまく対応できないため、既存のNEEメソッドに課題をもたらす。 そこで本研究では,PEの認識に基づくネストイベントを抽出するPerNeeというモデルを提案する。 具体的には、PerNeeはまずインナーネストとアウターネストの両方のイベントのトリガーを認識し、さらにトリガーペア間の関係タイプを分類することでPEを認識する。 モデルでは、イベントタイプと引数ロールの両方からの情報をインクルードして、より優れたトリガーと引数表現を使用して、NEEパフォーマンスを改善する。 既存のNEEデータセット(例:Genia11)は特定のドメインに限定されており、入れ子構造を持つイベントタイプが狭いため、ジェネリックドメイン内のネストイベントを体系的に分類し、ACE2005-Nestと呼ばれる新しいNEEデータセットを構築する。 実験の結果、PerNeeはACE2005-Nest、Genia11、Genia13の最先端性能を一貫して達成していることがわかった。 ACE2005-NestデータセットとPerNeeモデルのコードはhttps://github.com/waysonren/PerNeeで公開されている。

Nested Event Extraction (NEE) aims to extract complex event structures where an event contains other events as its arguments recursively. Nested events involve a kind of Pivot Elements (PEs) that simultaneously act as arguments of outer-nest events and as triggers of inner-nest events, and thus connect them into nested structures. This special characteristic of PEs brings challenges to existing NEE methods, as they cannot well cope with the dual identities of PEs. Therefore, this paper proposes a new model, called PerNee, which extracts nested events mainly based on recognizing PEs. Specifically, PerNee first recognizes the triggers of both inner-nest and outer-nest events and further recognizes the PEs via classifying the relation type between trigger pairs. The model uses prompt learning to incorporate information from both event types and argument roles for better trigger and argument representations to improve NEE performance. Since existing NEE datasets (e.g., Genia11) are limited to specific domains and contain a narrow range of event types with nested structures, we systematically categorize nested events in the generic domain and construct a new NEE dataset, called ACE2005-Nest. Experimental results demonstrate that PerNee consistently achieves state-of-the-art performance on ACE2005-Nest, Genia11, and Genia13. The ACE2005-Nest dataset and the code of the PerNee model are available at https://github.com/waysonren/PerNee.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# 機械学習対応多物理シミュレーションによる多目的最適化の強化

Enhancing Multi-Objective Optimization through Machine Learning-Supported Multiphysics Simulation ( http://arxiv.org/abs/2309.13179v2 )

ライセンス: Link先を確認
Diego Botache, Jens Decke, Winfried Ripken, Abhinay Dornipati, Franz Götz-Hahn, Mohamed Ayeb, Bernhard Sick, (参考訳) 本稿では,多物理シミュレーションに基づく技術システムの多目的最適化を近似し,高速化するための,訓練,自己最適化,自己組織化サロゲートモデルのための方法論的枠組みを提案する。 2つの実世界のデータセットを用いて、シュロゲートモデルを比較的少量のデータで訓練し、基礎となるシミュレーションを正確に近似することができることを示す。 説明可能なAI技術を含めると、機能関連性や依存関係の強調や、使用中のデータセットの拡張のサポートが可能になる。 この論文のためにデータセットの1つが作成され、より広い科学コミュニティで公開されている。 大規模な実験は、4つの機械学習とディープラーニングアルゴリズムと進化的最適化アルゴリズムを組み合わせる。 基礎的真理シミュレーションを用いて、生成されたパレート最適結果を検証することにより、学習パイプラインと最適化パイプラインの性能を評価する。 本研究のパイプラインと総合評価戦略は, シミュレーション数を削減し, 予測精度を高く保ちながら, 多目的最適化タスクにおける解候補を効率よく獲得する可能性を示している。

This paper presents a methodological framework for training, self-optimising, and self-organising surrogate models to approximate and speed up multiobjective optimisation of technical systems based on multiphysics simulations. At the hand of two real-world datasets, we illustrate that surrogate models can be trained on relatively small amounts of data to approximate the underlying simulations accurately. Including explainable AI techniques allow for highlighting feature relevancy or dependencies and supporting the possible extension of the used datasets. One of the datasets was created for this paper and is made publicly available for the broader scientific community. Extensive experiments combine four machine learning and deep learning algorithms with an evolutionary optimisation algorithm. The performance of the combined training and optimisation pipeline is evaluated by verifying the generated Pareto-optimal results using the ground truth simulations. The results from our pipeline and a comprehensive evaluation strategy show the potential for efficiently acquiring solution candidates in multiobjective optimisation tasks by reducing the number of simulations and conserving a higher prediction accuracy, i.e., with a MAPE score under 5% for one of the presented use cases.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# 量子速度歪み関数の効率的な計算法

Efficient Computation of the Quantum Rate-Distortion Function ( http://arxiv.org/abs/2309.15919v3 )

ライセンス: Link先を確認
Kerry He, James Saunderson, Hamza Fawzi, (参考訳) 量子速度歪み関数は量子情報理論において基本的な役割を果たすが、現在、この関数を適度なチャネル次元に対して高い精度で効率的に計算できる実用的なアルゴリズムは存在しない。 本稿では, 対称性の低下が, 絡み合い支援型量子速度歪み問題の一般的な事例をいかに単純化するかを示す。 これにより、最適速度歪みトレードオフが得られる量子チャネルの特性をよりよく理解でき、また、使用中の数値アルゴリズムによらず、量子速度歪み関数のより効率的な計算を可能にします。 さらに、証明可能なサブ線形収束率で量子速度歪み関数を計算するために、ミラー降下アルゴリズムの不正確な変種を提案する。 本稿では,このミラー降下アルゴリズムがBlahut-Arimotoとどのように関係しているかを示す。 これらの手法を用いて,マルチキュービット量子レート歪み関数を計算した最初の数値実験を行い,提案アルゴリズムが既存手法と比較して高速かつ高精度に解けることを示す。

The quantum rate-distortion function plays a fundamental role in quantum information theory, however there is currently no practical algorithm which can efficiently compute this function to high accuracy for moderate channel dimensions. In this paper, we show how symmetry reduction can significantly simplify common instances of the entanglement-assisted quantum rate-distortion problems. This allows us to better understand the properties of the quantum channels which obtain the optimal rate-distortion trade-off, while also allowing for more efficient computation of the quantum rate-distortion function regardless of the numerical algorithm being used. Additionally, we propose an inexact variant of the mirror descent algorithm to compute the quantum rate-distortion function with provable sublinear convergence rates. We show how this mirror descent algorithm is related to Blahut-Arimoto and expectation-maximization methods previously used to solve similar problems in information theory. Using these techniques, we present the first numerical experiments to compute a multi-qubit quantum rate-distortion function, and show that our proposed algorithm solves faster and to higher accuracy when compared to existing methods.
翻訳日:2024-04-04 23:17:50 公開日:2024-04-03
# 弾性相互作用エネルギーによるリアルタイム交通シーンの知覚

Elastic Interaction Energy-Informed Real-Time Traffic Scene Perception ( http://arxiv.org/abs/2310.01449v2 )

ライセンス: Link先を確認
Yaxin Feng, Yuan Lan, Luchan Zhang, Guoqing Liu, Yang Xiang, (参考訳) 都市セグメンテーションと車線検出は交通シーンの認識にとって重要な2つの課題である。 視覚知覚の精度と高速な推論速度は、自動運転の安全性に不可欠である。 微細で複雑な幾何学的対象は、歩行者、交通標識、車線などの交通シーンにおいて最も困難だが重要な認識対象である。 本稿では,EIEGSeg という,簡易かつ効率的なトポロジ対応エネルギー損失関数に基づくネットワークトレーニング手法を提案する。 EIEGSegは、リアルタイムの交通シーン認識におけるマルチクラスセグメンテーションのために設計されている。 具体的には、畳み込みニューラルネットワーク(CNN)は、画像の特徴を抽出して複数の出力を生成し、弾性相互作用エネルギー損失関数(EIEL)は、完全に重複するまで、基底真実に向かって移動する予測を駆動する。 我々の戦略は特に微細な構造においてうまく機能し、小型または不規則な形状の物体をより正確に識別でき、細い物体の連続性の問題を改善することができる。 都市景観のセグメンテーションデータであるCityscapesと、車線検出データTuSimpleとCULaneを含む3つの交通データを用いて、定量的に定性的に手法を解析した。 EIEGSegは、特に自律運転に適したリアルタイム軽量ネットワークにおいて、一貫して性能を改善していることを示す。

Urban segmentation and lane detection are two important tasks for traffic scene perception. Accuracy and fast inference speed of visual perception are crucial for autonomous driving safety. Fine and complex geometric objects are the most challenging but important recognition targets in traffic scene, such as pedestrians, traffic signs and lanes. In this paper, a simple and efficient topology-aware energy loss function-based network training strategy named EIEGSeg is proposed. EIEGSeg is designed for multi-class segmentation on real-time traffic scene perception. To be specific, the convolutional neural network (CNN) extracts image features and produces multiple outputs, and the elastic interaction energy loss function (EIEL) drives the predictions moving toward the ground truth until they are completely overlapped. Our strategy performs well especially on fine-scale structure, \textit{i.e.} small or irregularly shaped objects can be identified more accurately, and discontinuity issues on slender objects can be improved. We quantitatively and qualitatively analyze our method on three traffic datasets, including urban scene segmentation data Cityscapes and lane detection data TuSimple and CULane. Our results demonstrate that EIEGSeg consistently improves the performance, especially on real-time, lightweight networks that are better suited for autonomous driving.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# コントラスト後トレーニングのための自動ペア構築

Automatic Pair Construction for Contrastive Post-training ( http://arxiv.org/abs/2310.02263v2 )

ライセンス: Link先を確認
Canwen Xu, Corby Rosset, Ethan C. Chau, Luciano Del Corro, Shweti Mahajan, Julian McAuley, Jennifer Neville, Ahmed Hassan Awadallah, Nikhil Rao, (参考訳) アライメントは、大きな言語モデル(LLM)を人間の好みに向けるための重要なステップとなる。 本稿では, 異なる強度のモデル(例えば, InstructGPT, ChatGPT, GPT-4)から選好ペアを用いて, LLMのコントラストデータを構築する方法を提案する。 SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。 また、コントラスト的なポストトレーニングのためのデータカリキュラム学習手法についても検討し、"より簡単"なペアから学習し、"より硬い"ものへ移行することで、アライメントをさらに改善する。 最後に、実験をスケールアップして、より多くのデータとOrcaのような大きなモデルでトレーニングします。 注目すべきは、自動コントラストポストトレーニングにより、既にGPT-4出力をチューニングした最先端の指導学習モデルであるOrcaの性能が向上し、ChatGPTより優れることである。

Alignment serves as an important step to steer large language models (LLMs) towards human preferences. In this paper, we propose an automatic way to construct contrastive data for LLM, using preference pairs from multiple models of varying strengths (e.g., InstructGPT, ChatGPT and GPT-4). We compare the contrastive techniques of SLiC and DPO to SFT baselines and find that DPO provides a step-function improvement even after continuing SFT saturates. We also explore a data curriculum learning scheme for contrastive post-training, which starts by learning from "easier" pairs and transitioning to "harder" ones, which further improves alignment. Finally, we scale up our experiments to train with more data and larger models like Orca. Remarkably, our automatic contrastive post-training further improves the performance of Orca, already a state-of-the-art instruction learning model tuned with GPT-4 outputs, to outperform ChatGPT.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# UniverSLU: 自然言語命令による多言語タスクに対する普遍的な音声言語理解

UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions ( http://arxiv.org/abs/2310.02973v2 )

ライセンス: Link先を確認
Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Karen Livescu, Shinji Watanabe, (参考訳) 近年の研究では、マルチタスク機能を備えた大規模言語モデルを活用し、自然言語プロンプトを使用してモデルの振る舞いをガイドし、タスク固有のモデルの性能を超越している。 様々な音声言語理解(SLU)タスクを共同で実行する単一のモデルを構築することができるだろうか? まず、学習済みの自動音声認識モデルを用いて、単発タスク識別器を用いて追加タスクに適応することから始める。 提案手法は命令チューニング,すなわち自然言語命令を用いたタスク記述,ラベルオプションの一覧による微調整によって拡張する。 提案手法は,予測中のタスクに対する新しいタスク記述を一般化し,ユーザフレンドリ性を向上する。 我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。 多くのタスクにおいて、UniverSLUは競争性能を達成し、しばしばタスク固有のモデルを超える。 さらに、ゼロショット機能を評価し、モデルが新しいデータセットやタスクタイプのための言語に一般化されることを見出した。

Recent studies leverage large language models with multi-tasking capabilities, using natural language prompts to guide the model's behavior and surpassing performance of task-specific models. Motivated by this, we ask: can we build a single model that jointly performs various spoken language understanding (SLU) tasks? We start by adapting a pre-trained automatic speech recognition model to additional tasks using single-token task specifiers. We enhance this approach through instruction tuning, i.e., finetuning by describing the task using natural language instructions followed by the list of label options. Our approach can generalize to new task descriptions for the seen tasks during inference, thereby enhancing its user-friendliness. We demonstrate the efficacy of our single multi-task learning model "UniverSLU" for 12 speech classification and sequence generation task types spanning 17 datasets and 9 languages. On most tasks, UniverSLU achieves competitive performance and often even surpasses task-specific models. Additionally, we assess the zero-shot capabilities, finding that the model generalizes to new datasets and languages for seen task types.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# DecoderLens: Encoder-Decoder変換子の階層的解釈

DecoderLens: Layerwise Interpretation of Encoder-Decoder Transformers ( http://arxiv.org/abs/2310.03686v2 )

ライセンス: Link先を確認
Anna Langedijk, Hosein Mohebbi, Gabriele Sarti, Willem Zuidema, Jaap Jumelet, (参考訳) 近年、トランスフォーマーモデルの内部状態を様々な精度と複雑さで解釈するために、多くの解釈可能性法が提案されている。 本稿では,エンコーダ・デコーダ変換器を解析するために,単純で新しい手法を提案する。 LogitLens(デコーダのみのトランスフォーマー)にインスパイアされたこの手法は、デコーダがエンコーダ-デコーダモデルで通常行われているように、最終的なエンコーダ出力を使用する代わりに中間エンコーダ層を横断的に表現できるようにする。 これにより、以前は解釈不能なベクトル表現を、単語やシンボルの人間の解釈不能なシーケンスにマッピングする。 質問応答,論理的推論,音声認識,機械翻訳を訓練したモデルに適用したDecoderLensの結果を報告する。 DecoderLensは、低層または中間層で解決されるいくつかの特定のサブタスクを明らかにし、この重要なモデルのエンコーダコンポーネント内の情報フローに新たな光を放つ。

In recent years, many interpretability methods have been proposed to help interpret the internal states of Transformer-models, at different levels of precision and complexity. Here, to analyze encoder-decoder Transformers, we propose a simple, new method: DecoderLens. Inspired by the LogitLens (for decoder-only Transformers), this method involves allowing the decoder to cross-attend representations of intermediate encoder layers instead of using the final encoder output, as is normally done in encoder-decoder models. The method thus maps previously uninterpretable vector representations to human-interpretable sequences of words or symbols. We report results from the DecoderLens applied to models trained on question answering, logical reasoning, speech recognition and machine translation. The DecoderLens reveals several specific subtasks that are solved at low or intermediate layers, shedding new light on the information flow inside the encoder component of this important class of models.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# 文脈ルールと役割相関を利用した文書レベルのイベント調停抽出

Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction ( http://arxiv.org/abs/2310.05116v4 )

ライセンス: Link先を確認
Wanlong Liu, Dingyi Zeng, Li Zhou, Yichen Xiao, Weishan Kong, Malu Zhang, Shaohuan Cheng, Hongyang Zhao, Wenyu Chen, (参考訳) 文書レベルのイベント引数抽出は,情報抽出分野において重要な課題である。 現在の主流のアプローチは、主にイベントトリガとその引数間の情報インタラクションに焦点を当てており、コンテキストインタラクションの不十分さとイベント相関の無知という2つの制限に直面しています。 本稿では,CARLG (Contextual Aggregation of clues and Role-based Latent Guidance) という,CCA (Contextual Clues Aggregation) とRLIG (Role-based Latent Information Guidance) の2つの革新的なコンポーネントを紹介する。 CCAモジュールは、事前訓練されたエンコーダから得られた注意重みを利用して、より広いコンテキスト情報を適応的に同化し、RLIGモジュールはイベントロール間の意味的相関をキャプチャすることを目的としている。 次に、CARLGフレームワークを現在の主流EAEアプローチの2つのタイプに基づいて2つの変種にインスタンス化する。 特に、我々のCARLGフレームワークは1%未満の新しいパラメータを導入したが、性能は大幅に改善した。 RAMS、WikiEvents、MLEEデータセットにわたる総合的な実験により、CARLGの優位性が確認され、主要なベンチマークと比較してパフォーマンスと推論速度の両方において大きな優位性を示している。 さらに解析を行い,提案手法の有効性を示した。

Document-level event argument extraction is a crucial yet challenging task within the field of information extraction. Current mainstream approaches primarily focus on the information interaction between event triggers and their arguments, facing two limitations: insufficient context interaction and the ignorance of event correlations. Here, we introduce a novel framework named CARLG (Contextual Aggregation of clues and Role-based Latent Guidance), comprising two innovative components: the Contextual Clues Aggregation (CCA) and the Role-based Latent Information Guidance (RLIG). The CCA module leverages the attention weights derived from a pre-trained encoder to adaptively assimilates broader contextual information, while the RLIG module aims to capture the semantic correlations among event roles. We then instantiate the CARLG framework into two variants based on two types of current mainstream EAE approaches. Notably, our CARLG framework introduces less than 1% new parameters yet significantly improving the performance. Comprehensive experiments across the RAMS, WikiEvents, and MLEE datasets confirm the superiority of CARLG, showing significant superiority in terms of both performance and inference speed compared to major benchmarks. Further analyses demonstrate the effectiveness of the proposed modules.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# レトロスペクティブフォールバック:不確実な世界における再合成計画

Retro-fallback: retrosynthetic planning in an uncertain world ( http://arxiv.org/abs/2310.09270v2 )

ライセンス: Link先を確認
Austin Tripp, Krzysztof Maziarz, Sarah Lewis, Marwin Segler, José Miguel Hernández-Lobato, (参考訳) 再合成は、よりシンプルで購入可能な分子から望ましい分子を作るために一連の化学反応を計画するタスクである。 これまでの研究では、様々なメトリクス(例えば、最短、最低コスト)の最適解を求めるアルゴリズムが提案されていたが、これらの研究は一般的に、反応の空間について不完全な知識を持っているという事実を見落としている。 本稿では, この不確実性を考慮するために, 確率過程の観点からのレトロ合成の新規な定式化を提案する。 そこで我々は,少なくとも1つの合成計画が実験室で実行可能である確率を最大化する,レトロフォールバック(retro-fallback)と呼ばれる新しいグリージーアルゴリズムを提案する。 In-silicoベンチマークを用いて、レトロフォールバックが一般的なMCTSやレトロ*アルゴリズムよりも優れた合成計画を生成することを示した。

Retrosynthesis is the task of planning a series of chemical reactions to create a desired molecule from simpler, buyable molecules. While previous works have proposed algorithms to find optimal solutions for a range of metrics (e.g. shortest, lowest-cost), these works generally overlook the fact that we have imperfect knowledge of the space of possible reactions, meaning plans created by algorithms may not work in a laboratory. In this paper we propose a novel formulation of retrosynthesis in terms of stochastic processes to account for this uncertainty. We then propose a novel greedy algorithm called retro-fallback which maximizes the probability that at least one synthesis plan can be executed in the lab. Using in-silico benchmarks we demonstrate that retro-fallback generally produces better sets of synthesis plans than the popular MCTS and retro* algorithms.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# UNO-DST:ゼロショット対話状態追跡におけるアンラベリングデータの活用

UNO-DST: Leveraging Unlabelled Data in Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2310.10492v2 )

ライセンス: Link先を確認
Chuang Li, Yan Zhang, Min-Yen Kan, Haizhou Li, (参考訳) 従来のゼロショット対話状態追跡(DST)手法は、対象領域における非競合データを無視して、転送学習のみを適用した。 我々は、ゼロショットDSTを、ジョイントおよび自己学習手法を用いて、そのような非ラベルデータを活用することで、少数ショットDSTに変換する。 本手法は,主タスクの逆プロンプトとしてスロットタイプを生成する補助タスクを組み込み,共同学習中にスロット値を生成する。 これら2つのタスク間のサイクル整合性により、未知のターゲット領域における品質サンプルの生成と選択が可能となり、その後の微調整が可能となる。 このアプローチはまた、自動ラベル作成を容易にし、DSTモデルのトレーニングと微調整を最適化する。 ゼロショットシナリオにおける汎用言語モデルに対する本手法の有効性を実証し、MultiWOZの全ドメインで平均的な共同ゴール精度を8%向上する。

Previous zero-shot dialogue state tracking (DST) methods only apply transfer learning, ignoring unlabelled data in the target domain. We transform zero-shot DST into few-shot DST by utilising such unlabelled data via joint and self-training methods. Our method incorporates auxiliary tasks that generate slot types as inverse prompts for main tasks, creating slot values during joint training. Cycle consistency between these two tasks enables the generation and selection of quality samples in unknown target domains for subsequent fine-tuning. This approach also facilitates automatic label creation, thereby optimizing the training and fine-tuning of DST models. We demonstrate this method's effectiveness on general language models in zero-shot scenarios, improving average joint goal accuracy by 8% across all domains in MultiWOZ.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# 優れたラプラシア表現学習

Proper Laplacian Representation Learning ( http://arxiv.org/abs/2310.10833v2 )

ライセンス: Link先を確認
Diego Gomez, Michael Bowling, Marlos C. Machado, (参考訳) 国家の優れた表現を学ぶ能力は、探索、一般化、移動が特に困難である大規模な強化学習問題の解決に不可欠である。 ラプラシアン表現は、時間的に拡張された行動発見と報酬形成のための情報的状態符号化と本質的な報酬を誘導することにより、これらの問題に対処するための有望なアプローチである。 ラプラシアン表現を得るには、グラフラプラシアンの固有系を計算する必要がある。 しかし、これらの近似は効率的にチューニングできないハイパーパラメータに依存し、所望の固有ベクトルの任意の回転に収束し、対応する固有値の正確な復元ができない。 本稿では,ラプラシアン表現を近似するための理論的に健全な目的とそれに対応する最適化アルゴリズムを提案する。 提案手法は, 固有ベクトルと固有値の両方を自然に回収し, 従来の近似のハイパーパラメータ依存を除去する。 提案手法を理論的に保証し,実験によって複数の環境にまたがる堅牢な学習に変換することを示す。

The ability to learn good representations of states is essential for solving large reinforcement learning problems, where exploration, generalization, and transfer are particularly challenging. The Laplacian representation is a promising approach to address these problems by inducing informative state encoding and intrinsic rewards for temporally-extended action discovery and reward shaping. To obtain the Laplacian representation one needs to compute the eigensystem of the graph Laplacian, which is often approximated through optimization objectives compatible with deep learning approaches. These approximations, however, depend on hyperparameters that are impossible to tune efficiently, converge to arbitrary rotations of the desired eigenvectors, and are unable to accurately recover the corresponding eigenvalues. In this paper we introduce a theoretically sound objective and corresponding optimization algorithm for approximating the Laplacian representation. Our approach naturally recovers both the true eigenvectors and eigenvalues while eliminating the hyperparameter dependence of previous approximations. We provide theoretical guarantees for our method and we show that those results translate empirically into robust learning across multiple environments.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# BatteryML:バッテリ劣化による機械学習のためのオープンソースプラットフォーム

BatteryML:An Open-source platform for Machine Learning on Battery Degradation ( http://arxiv.org/abs/2310.14714v5 )

ライセンス: Link先を確認
Han Zhang, Xiaofan Gui, Shun Zheng, Ziheng Lu, Yuqi Li, Jiang Bian, (参考訳) バッテリーの劣化は、エネルギーストレージ領域における重要な関心事であり、機械学習が先進的な洞察とソリューションを促進する強力なツールとして台頭している。 しかし、この電気化学科学と機械学習の交わりは複雑な問題を引き起こす。 機械学習の専門家は、バッテリサイエンスの複雑さに悩まされることが多いが、バッテリ研究者は、特定のデータセットに合わせて複雑なモデルを適用する際のハードルに直面している。 これ以外にも、データフォーマットと評価ベンチマークを含む、バッテリ劣化モデリングのための凝集度の高い標準は、目立って欠落している。 これらの障害を認識し、データ前処理、機能抽出、そして従来のモデルと最先端モデルの両方の実装を統一するように設計された、ワンステップ、オールエンコンパス、オープンソースプラットフォームであるBatteryMLを紹介します。 この合理化されたアプローチは、研究アプリケーションの実用性と効率を高めることを約束する。 BatteryMLはこの空白を埋めようとしている。さまざまな専門分野の専門家が協力して貢献できる環境を育み、バッテリリサーチの全体的な理解と進歩を高める。プロジェクトのコードはGitHubでhttps://github.com/microsoft/BatteryMLで公開されている。

Battery degradation remains a pivotal concern in the energy storage domain, with machine learning emerging as a potent tool to drive forward insights and solutions. However, this intersection of electrochemical science and machine learning poses complex challenges. Machine learning experts often grapple with the intricacies of battery science, while battery researchers face hurdles in adapting intricate models tailored to specific datasets. Beyond this, a cohesive standard for battery degradation modeling, inclusive of data formats and evaluative benchmarks, is conspicuously absent. Recognizing these impediments, we present BatteryML - a one-step, all-encompass, and open-source platform designed to unify data preprocessing, feature extraction, and the implementation of both traditional and state-of-the-art models. This streamlined approach promises to enhance the practicality and efficiency of research applications. BatteryML seeks to fill this void, fostering an environment where experts from diverse specializations can collaboratively contribute, thus elevating the collective understanding and advancement of battery research.The code for our project is publicly available on GitHub at https://github.com/microsoft/BatteryML.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# サンプル選択バイアスの有無によるロバスト自己学習のためのアンサンブル多様性の活用

Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias ( http://arxiv.org/abs/2310.14814v4 )

ライセンス: Link先を確認
Ambroise Odonnat, Vasilii Feofanov, Ievgen Redko, (参考訳) 自己学習は半教師あり学習におけるよく知られたアプローチである。 モデルが信頼しているラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。 ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。 この現象は特にサンプル選択バイアスの存在、すなわちデータラベリングが何らかの制約を受ける場合において強化される。 この問題に対処するため、線形分類器のアンサンブルの予測多様性に基づいて、$\mathcal{T}$-similarityと呼ばれる新しい信頼度尺度を提案する。 本研究では,定常点の学習によるアプローチの理論解析を行い,各メンバーの多様性とパフォーマンスの関係について述べる。 各種データモダリティの分類データセットに対する3つの異なる擬似ラベルポリシーに対する信頼度尺度の利点を実証的に実証した。 コードはhttps://github.com/ambroiseodt/tsimで公開されている。

Self-training is a well-known approach for semi-supervised learning. It consists of iteratively assigning pseudo-labels to unlabeled data for which the model is confident and treating them as labeled examples. For neural networks, softmax prediction probabilities are often used as a confidence measure, although they are known to be overconfident, even for wrong predictions. This phenomenon is particularly intensified in the presence of sample selection bias, i.e., when data labeling is subject to some constraint. To address this issue, we propose a novel confidence measure, called $\mathcal{T}$-similarity, built upon the prediction diversity of an ensemble of linear classifiers. We provide the theoretical analysis of our approach by studying stationary points and describing the relationship between the diversity of the individual members and their performance. We empirically demonstrate the benefit of our confidence measure for three different pseudo-labeling policies on classification datasets of various data modalities. The code is available at https://github.com/ambroiseodt/tsim.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# フェルミオン量子臨界系はより絡み合っているか?

Are fermionic quantum critical systems more entangled? ( http://arxiv.org/abs/2310.15273v3 )

ライセンス: Link先を確認
Gilles Parez, William Witczak-Krempa, (参考訳) 量子臨界系における解離部分領域間の絡み合いを対数ネガティティティのレンズを用いて検討する。 共形場の理論やそれに対応する格子ハミルトニアンを含む任意の次元の系や、共鳴価結合状態を扱う。 小さな分離では対数ネガティビティが大きく、普遍的な振る舞いを示すが、大きな分離ではどのパワーよりも速く崩壊する。 これは、単一スピン部分領域の最小設定で既に見ることができる。 大規模な分離における蒸留可能な絡み合いの欠如は1dの結果を一般化し、少なくともボソンにとって量子臨界基底状態が長距離の二部絡み合いを持たないことを示す。 フェルミオンを持つ系に対しては、フェルミオンパリティを考慮に入れた対数否定性のより適切な定義が存在し、代数的に崩壊することを示す。 その過程で、部分転位密度行列のモーメントの一般結果を得る。

We study the entanglement between disjoint subregions in quantum critical systems through the lens of the logarithmic negativity. We work with systems in arbitrary dimensions, including conformal field theories and their corresponding lattice Hamiltonians, as well as resonating valence-bond states. At small separations, the logarithmic negativity is big and displays universal behaviour, but we show non-perturbatively that it decays faster than any power at large separations. This can already be seen in the minimal setting of single-spin subregions. The corresponding absence of distillable entanglement at large separations generalises the 1d result, and indicates that quantum critical groundstates do not possess long-range bipartite entanglement, at least for bosons. For systems with fermions, a more suitable definition of the logarithmic negativity exists that takes into account fermion parity, and we show that it decays algebraically. Along the way we obtain general results for the moments of the partially-transposed density matrix.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# ワンサイズフィッツオール」? : コンフォーメーション「フェア」と「グッド」NLGシステム行動に関する期待

"One-Size-Fits-All"? Examining Expectations around What Constitute "Fair" or "Good" NLG System Behaviors ( http://arxiv.org/abs/2310.15398v2 )

ライセンス: Link先を確認
Li Lucy, Su Lin Blodgett, Milad Shokouhi, Hanna Wallach, Alexandra Olteanu, (参考訳) 適切なNLGシステム行動を構成することの公平性に関する仮定は、社会集団に対してシステムが同一に振る舞うことが期待される不変性から、その代わりに行動が異なるように適応することまで様々である。 NLGシステム入力における個人性関連言語の特徴(名前、役割、場所、方言、スタイル)を摂動させる5つのケーススタディを実施。 これらのケーススタディを通じて、システムの振る舞いに対する人々の期待と、対照的に一般的に想定される仮定の潜在的な注意点について検討する。 適応のためのモチベーションには、社会的規範、文化的差異、特徴特化情報、宿泊が含まれるが、対照的に、相違へのモチベーションには、規範主義を支持する視点、NLGシステムにとって不必要または困難であると見なす視点、偽の仮定に注意が必要である。 以上の結果から,NLGシステムの「公正」な行動や「良好な」行動に関するオープンな課題が浮かび上がっている。

Fairness-related assumptions about what constitute appropriate NLG system behaviors range from invariance, where systems are expected to behave identically for social groups, to adaptation, where behaviors should instead vary across them. To illuminate tensions around invariance and adaptation, we conduct five case studies, in which we perturb different types of identity-related language features (names, roles, locations, dialect, and style) in NLG system inputs. Through these cases studies, we examine people's expectations of system behaviors, and surface potential caveats of these contrasting yet commonly held assumptions. We find that motivations for adaptation include social norms, cultural differences, feature-specific information, and accommodation; in contrast, motivations for invariance include perspectives that favor prescriptivism, view adaptation as unnecessary or too difficult for NLG systems to do appropriately, and are wary of false assumptions. Our findings highlight open challenges around what constitute "fair" or "good" NLG system behaviors.
翻訳日:2024-04-04 23:08:03 公開日:2024-04-03
# ベイジアンニューラル制御による処理効果推定のための微分方程式

Bayesian Neural Controlled Differential Equations for Treatment Effect Estimation ( http://arxiv.org/abs/2310.17463v2 )

ライセンス: Link先を確認
Konstantin Hess, Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel, (参考訳) パーソナライズされた医療には, 連続的な治療効果の推定が不可欠である。 しかし、このタスクの既存の手法は潜在的な結果の点推定に限られているが、不確実性評価は無視されている。 言うまでもなく、医療応用における信頼性の高い意思決定には不確実性の定量化が不可欠である。 このギャップを埋めるために、連続時間での処理効果推定のための新しいベイズニューラルネットワーク微分方程式(BNCDE)を提案する。 我々のBNCDEでは、時間次元は、ニューラル制御微分方程式とニューラル確率微分方程式の結合系を通してモデル化される。 そこでBNCDEは, 与えられた治療の順序に対して, 潜在的結果の有意な後続の予測分布を提供する。 我々の知識を最大限に活用するために、我々の研究は、連続した時間における治療効果の不確かさを推定する最初の調整されたニューラルネットワーク手法である。 このように,医療における信頼性の高い意思決定を促進するために,本手法は直接的に有用である。

Treatment effect estimation in continuous time is crucial for personalized medicine. However, existing methods for this task are limited to point estimates of the potential outcomes, whereas uncertainty estimates have been ignored. Needless to say, uncertainty quantification is crucial for reliable decision-making in medical applications. To fill this gap, we propose a novel Bayesian neural controlled differential equation (BNCDE) for treatment effect estimation in continuous time. In our BNCDE, the time dimension is modeled through a coupled system of neural controlled differential equations and neural stochastic differential equations, where the neural stochastic differential equations allow for tractable variational Bayesian inference. Thereby, for an assigned sequence of treatments, our BNCDE provides meaningful posterior predictive distributions of the potential outcomes. To the best of our knowledge, ours is the first tailored neural method to provide uncertainty estimates of treatment effects in continuous time. As such, our method is of direct practical value for promoting reliable decision-making in medicine.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-03
# モデルスカラー化を伴う非凸・非平滑問題に対するプライバシ保護型初等二元学習

Privacy-preserving Federated Primal-dual Learning for Non-convex and Non-smooth Problems with Model Sparsification ( http://arxiv.org/abs/2310.19558v2 )

ライセンス: Link先を確認
Yiwei Li, Chien-Wei Huang, Shuai Wang, Chong-Yung Chi, Tony Q. S. Quek, (参考訳) フェデレートラーニング(FL)は、クライアントのデータを共有することなく、パラメータサーバ(PS)のオーケストレーションの下で、大規模な分散クライアント上でモデルをトレーニングする、急速に成長する研究領域として認識されている。 本稿では,非凸性および非平滑性損失関数を特徴とするフェデレーション問題を,FLアプリケーションで広く普及しているが,非凸性と非平滑性の性質が複雑であり,通信効率とプライバシ保護の矛盾が原因で対処が困難である。 本稿では,非凸および非滑らかなFL問題に適した双方向モデルスペーシフィケーションを備えた新しいフェデレーション原始双対アルゴリズムを提案し,プライバシ保証に差分プライバシを適用した。 その独特な洞察力のある性質とプライバシーと収束分析もFLアルゴリズム設計ガイドラインとして提示されている。 実世界のデータに対する大規模な実験を行い、提案アルゴリズムの有効性を実証し、解析結果と特性の検証とともに、いくつかの最先端のFLアルゴリズムよりもはるかに優れた性能を示す。

Federated learning (FL) has been recognized as a rapidly growing research area, where the model is trained over massively distributed clients under the orchestration of a parameter server (PS) without sharing clients' data. This paper delves into a class of federated problems characterized by non-convex and non-smooth loss functions, that are prevalent in FL applications but challenging to handle due to their intricate non-convexity and non-smoothness nature and the conflicting requirements on communication efficiency and privacy protection. In this paper, we propose a novel federated primal-dual algorithm with bidirectional model sparsification tailored for non-convex and non-smooth FL problems, and differential privacy is applied for privacy guarantee. Its unique insightful properties and some privacy and convergence analyses are also presented as the FL algorithm design guidelines. Extensive experiments on real-world data are conducted to demonstrate the effectiveness of the proposed algorithm and much superior performance than some state-of-the-art FL algorithms, together with the validation of all the analytical results and properties.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-03
# 反復生成概念ボトルネックを用いた解釈・設計テキスト理解

Interpretable-by-Design Text Understanding with Iteratively Generated Concept Bottleneck ( http://arxiv.org/abs/2310.19660v2 )

ライセンス: Link先を確認
Josh Magnus Ludan, Qing Lyu, Yue Yang, Liam Dugan, Mark Yatskar, Chris Callison-Burch, (参考訳) ブラックボックスのディープニューラルネットワークはテキスト分類に優れているが、ハイテイクドメインへの応用は、解釈可能性の欠如によって妨げられている。 そこで本研究では,グローバルかつ局所的な説明を提供する,本質的に解釈可能なテキスト分類フレームワークであるText Bottleneck Models (TBM)を提案する。 出力ラベルを直接予測するのではなく、TBMはスパースの概念セットのカテゴリー値を予測し、それらの概念値の上に線形層を用いて最終的な予測を生成する。 これらの概念は、人間のキュレーションを必要とせずに、LLM(Large Language Model)によって自動的に発見され、測定することができる。 12種類のテキスト理解データセットの実験により、TBMは小ショットのGPT-4や微調整のDeBERTaといったブラックボックスベースラインのパフォーマンスに匹敵し、微調整のGPT-3.5に対して不足していることが示された。 包括的人間評価は、TBMがタスクに関連する高品質な概念を生成できることを検証し、その概念測定は人間の判断とよく一致し、TBMによる予測が解釈可能であることを示唆する。 総じて,TBMはパフォーマンスのトレードオフを最小限に抑えて解釈可能性を高める,有望な新しいフレームワークであることを示唆している。

Black-box deep neural networks excel in text classification, yet their application in high-stakes domains is hindered by their lack of interpretability. To address this, we propose Text Bottleneck Models (TBM), an intrinsically interpretable text classification framework that offers both global and local explanations. Rather than directly predicting the output label, TBM predicts categorical values for a sparse set of salient concepts and uses a linear layer over those concept values to produce the final prediction. These concepts can be automatically discovered and measured by a Large Language Model (LLM) without the need for human curation. Experiments on 12 diverse text understanding datasets demonstrate that TBM can rival the performance of black-box baselines such as few-shot GPT-4 and finetuned DeBERTa while falling short against finetuned GPT-3.5. Comprehensive human evaluation validates that TBM can generate high-quality concepts relevant to the task, and the concept measurement aligns well with human judgments, suggesting that the predictions made by TBMs are interpretable. Overall, our findings suggest that TBM is a promising new framework that enhances interpretability with minimal performance tradeoffs.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-03
# 潜在空間における多操作数学的導出

Multi-Operational Mathematical Derivations in Latent Space ( http://arxiv.org/abs/2311.01230v2 )

ライセンス: Link先を確認
Marco Valentino, Jordan Meadows, Lan Zhang, André Freitas, (参考訳) 本稿では,式導出のための潜在空間における複数の数学的操作を近似する可能性について検討する。 この目的のために、数学的操作を明示的な幾何学的変換としてモデル化する、異なる多動作表現パラダイムを導入する。 シンボリックエンジンを利用することで,61Kの前提と6つの演算子からなる1.7Mの導出ステップからなる大規模データセットを構築し,最先端のニューラルエンコーダをインスタンス化した際の各パラダイムの特性を解析する。 具体的には、異なる符号化機構が潜在空間における表現操作を近似し、異なる演算子を学習し、単一の操作で専門化するトレードオフを探索し、多段階の導出とアウト・オブ・ディストリビューションの一般化をサポートする能力について検討する。 実験により,複数操作のパラダイムは異なる演算子を分離するために重要であり,一方,1つの操作の結論を識別することは,元の式エンコーダで達成可能であることがわかった。 さらに、アーキテクチャの選択は、トレーニングのダイナミクス、構造組織、潜在空間の一般化に大きく影響し、結果として、パラダイムやエンコーダのクラスに大きな変化をもたらすことを示す。

This paper investigates the possibility of approximating multiple mathematical operations in latent space for expression derivation. To this end, we introduce different multi-operational representation paradigms, modelling mathematical operations as explicit geometric transformations. By leveraging a symbolic engine, we construct a large-scale dataset comprising 1.7M derivation steps stemming from 61K premises and 6 operators, analysing the properties of each paradigm when instantiated with state-of-the-art neural encoders. Specifically, we investigate how different encoding mechanisms can approximate expression manipulation in latent space, exploring the trade-off between learning different operators and specialising within single operations, as well as the ability to support multi-step derivations and out-of-distribution generalisation. Our empirical analysis reveals that the multi-operational paradigm is crucial for disentangling different operators, while discriminating the conclusions for a single operation is achievable in the original expression encoder. Moreover, we show that architectural choices can heavily affect the training dynamics, structural organisation, and generalisation of the latent space, resulting in significant variations across paradigms and classes of encoders.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-03
# Divergent Token Metrics: LLMコンポーネントを起点とする劣化の測定 -- と量子化の最適化

Divergent Token Metrics: Measuring degradation to prune away LLM components -- and optimize quantization ( http://arxiv.org/abs/2311.01544v3 )

ライセンス: Link先を確認
Björn Deiseroth, Max Meuer, Nikolas Gritsch, Constantin Eichenberg, Patrick Schramowski, Matthias Aßenmacher, Kristian Kersting, (参考訳) 大きな言語モデル(LLM)は、その印象的な能力で自然言語処理を再構築した。 しかし、その拡大を続けるサイズは、効率的なデプロイメントとLLM圧縮の必要性を懸念している。 本研究は, テキスト生成品質を正確に反映できない従来の難易度や精度の限界に対処する, 圧縮LDMの新たな評価手法であるDTM(Dimpergent Token Metrics)を紹介する。 DTMは、コンポーネントの影響を個別に評価する際に、特にモデル圧縮の微妙さに関する深い洞察を可能にするトークンの発散を測定する。 モデルスカラー化にFDTM(First Divergent Token Metric)を用いることで、すべての注目コンポーネントの25%がLlama-2モデルファミリで90%を超え、SOTAのパフォーマンスを維持していることが明らかになった。 量子化では、FDTMは、パラメータの80%以上が特別な外れ値の管理なしに、int8にナビゲート変換可能であることを示唆している。 これらの評価は、パラメータを個別に適切な圧縮を選択する必要があること、FDTMがそれらを識別できること、そして標準メトリクスが劣化した結果であることを示している。

Large Language Models (LLMs) have reshaped natural language processing with their impressive capabilities. However, their ever-increasing size has raised concerns about their effective deployment and the need for LLM compression. This study introduces the Divergent Token Metrics (DTMs), a novel approach to assessing compressed LLMs, addressing the limitations of traditional perplexity or accuracy measures that fail to accurately reflect text generation quality. DTMs measure token divergences that allow deeper insights into the subtleties of model compression, in particular, when evaluating components' impacts individually. Utilizing the First Divergent Token Metric (FDTM) in model sparsification reveals that 25% of all attention components can be pruned beyond 90% on the Llama-2 model family, still keeping SOTA performance. For quantization, FDTM suggests that more than 80% of parameters can be naively transformed to int8 without special outlier management. These evaluations indicate the necessity of choosing appropriate compressions for parameters individually -- and that FDTM can identify those -- while standard metrics result in deteriorated outcomes.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-03
# 大規模言語モデルの心理的予測力

Psychometric Predictive Power of Large Language Models ( http://arxiv.org/abs/2311.07484v2 )

ライセンス: Link先を確認
Tatsuki Kuribayashi, Yohei Oseki, Timothy Baldwin, (参考訳) インストラクションチューニングは、大きな言語モデル(LLM)の応答と人間の好みを一致させる。 このような人間-LLMアライメントの取り組みにもかかわらず、興味深いことに、インストラクションチューニングが認知モデルの観点からLLMを人間らしくするとは限らないことが報告されている。 より具体的には、命令調整されたLLMで推定される次の単語確率は、基本LLMで推定されるよりも人間の読書行動のシミュレートが悪くなることが多い。 また,LLMを用いた読解行動のシミュレーション手法についても検討した。 以上の結果から,特定の言語仮説を反映するプロンプトはPPPを改善するが,小ベースモデルではPPPに劣ることが示された。 これらの結果から,LLMの最近の進歩,すなわち命令チューニングとプロンプトは,認知モデルにおけるベースLLMの直接的確率測定よりも優れた推定値を提供していないことが示唆された。 言い換えれば、LLMの時代においても、純粋な次の単語確率は人間の読書行動の強力な予測因子であり続けている。

Instruction tuning aligns the response of large language models (LLMs) with human preferences. Despite such efforts in human--LLM alignment, we report that, interestingly, instruction tuning does not always make LLMs human-like from a cognitive modeling perspective. More specifically, next-word probabilities estimated by instruction-tuned LLMs are often worse at simulating human reading behavior than those estimated by base LLMs. In addition, we explore prompting methodologies in simulating human reading behavior with LLMs. Our results show that prompts reflecting a particular linguistic hypothesis improve PPP but are still inferior to PPP from small base models. These findings highlight that recent advancements in LLMs, i.e., instruction tuning and prompting, do not offer better estimates than direct probability measurements from base LLMs in cognitive modeling. In other words, our experiments highlight that pure next-word probability remains a strong predictor for human reading behavior, even in the age of LLMs.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-03
# 傾斜ボース・ハバード鎖におけるフラクトンの分解ダイナミクス

Deconfinement Dynamics of Fractons in Tilted Bose-Hubbard Chains ( http://arxiv.org/abs/2311.08455v2 )

ライセンス: Link先を確認
Julian Boesl, Philip Zechmann, Johannes Feldmeier, Michael Knap, (参考訳) フラクトニックな制約は、量子多体系のエキゾチックな性質をもたらす。 本稿では1次元双極子保存ボース・ハッバード模型の基底状態上におけるフラクトン励起のダイナミクスについて検討する。 近くのフラクトンは仮想双極子励起を交換することで、基底状態の位相を特徴付ける強力な動的ツールを提供する。 ギャップ状のモット絶縁相では、運動が大きな双極子の交換を必要とするため、フラクトンは互いに閉じ込められている。 相転移を横切ると、ダイポールの隙間のないルッティンガー液体に転移すると、フラクトンは分解する。 過渡的な分解ダイナミクスは拡散的にスケールし、量子リフシッツモデルによって記述される強いが導かれる貢献を示す。 ボース・ハバード鎖の傾斜状態とその後の時間変化を数値シミュレーションし,低エネルギーフラクトンダイナミクスの明確なシグネチャを見いだすことにより,傾斜したボース・ハバード鎖の実験的実現の可能性を検討する。

Fractonic constraints can lead to exotic properties of quantum many-body systems. Here, we investigate the dynamics of fracton excitations on top of the ground states of a one-dimensional, dipole-conserving Bose-Hubbard model. We show that nearby fractons undergo a collective motion mediated by exchanging virtual dipole excitations, which provides a powerful dynamical tool to characterize the underlying ground state phases. We find that in the gapped Mott insulating phase, fractons are confined to each other as motion requires the exchange of massive dipoles. When crossing the phase transition into a gapless Luttinger liquid of dipoles, fractons deconfine. Their transient deconfinement dynamics scales diffusively and exhibits strong but subleading contributions described by a quantum Lifshitz model. We examine prospects for the experimental realization in tilted Bose-Hubbard chains by numerically simulating the adiabatic state preparation and subsequent time evolution, and find clear signatures of the low-energy fracton dynamics.
翻訳日:2024-04-04 22:56:57 公開日:2024-04-03
# 文章を書くとき:仮説検証は、忠実な知識からテキスト生成を促進する

Think While You Write: Hypothesis Verification Promotes Faithful Knowledge-to-Text Generation ( http://arxiv.org/abs/2311.09467v2 )

ライセンス: Link先を確認
Yifu Qiu, Varun Embar, Shay B. Cohen, Benjamin Han, (参考訳) 知識からテキストへのジェネレータは入力された事実の記述を忠実に生成するのに苦労することが多く、入力に矛盾する幻覚や、入力に存在しない事実を記述できる。 幻覚を抑えるために,復号法であるTWEAK(Think While Effectively Articulating Knowledge)を提案する。 TWEAKは、各復号ステップとその将来のシーケンスを仮説として扱い、仮説検証モデル(HVM)を用いて、それらの仮説が入力事実によって支持される程度に基づいて、各世代候補をランク付けする。 まず、HVMとして自然言語推論(NLI)モデルを用いてTWEAKの有効性を実証し、品質への影響を最小限に抑えて忠実性の向上を報告した。 次に、NLIモデルを、入力事実と原文と摂動記述をペアリングする、第一種データセットであるFATE(Fact-Aligned Textual Entailment)で訓練されたタスク固有のHVMに置き換える。 2つのジェネレータでTWEAKを試験し、2つのモデルの平均TWEAK変種を2.24/7.17ポイントの忠実度(FactKB)でそれぞれ改善し、品質が0.14/0.32ポイント低下した(BERTScore)。

Knowledge-to-text generators often struggle to faithfully generate descriptions for the input facts: they may produce hallucinations that contradict the input, or describe facts not present in the input. To reduce hallucinations, we propose a decoding-only method, TWEAK (Think While Effectively Articulating Knowledge), which can be integrated with any generator without retraining. TWEAK treats the generated sequences at each decoding step and its future sequences as hypotheses, and ranks each generation candidate based on the extent to which their hypotheses are supported by the input facts using a Hypothesis Verification Model (HVM). We first demonstrate the effectiveness of TWEAK by using a Natural Language Inference (NLI) model as the HVM and report improved faithfulness with a minimal impact on the quality. We then replace the NLI model with a task-specific HVM trained with a first-of-a-kind dataset, FATE (Fact-Aligned Textual Entailment), which pairs input facts with their original and perturbed descriptions. We test TWEAK with two generators, and the best TWEAK variants improve on average for the two models by 2.24/7.17 points in faithfulness (FactKB) in in/out-of-distribution evaluations, respectively, and with only a 0.14/0.32-point decline in quality (BERTScore).
翻訳日:2024-04-04 22:56:57 公開日:2024-04-03
# NLPロバストネスにおけるTriumphエコー中のダウトのささやき

Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness ( http://arxiv.org/abs/2311.09694v2 )

ライセンス: Link先を確認
Ashim Gupta, Rishanth Rajendhran, Nathan Stringham, Vivek Srikumar, Ana Marasović, (参考訳) より大規模でパフォーマンスの高いモデルは、NLPの長年の堅牢性の問題を解決するだろうか? 本稿では,異なるアーキテクチャ選択と事前学習目的にまたがる,20以上の異なるサイズのモデルを用いて,この問題を考察する。 私たちは評価を行います a) ドメイン外のテストセットとチャレンジテストセット。 (b) CheckListsによる動作テスト (c)コントラストセット、及び (d)逆入力。 分析の結果、すべてのドメイン外のテストが堅牢性に関する洞察を提供するわけではないことが判明した。 CheckListとコントラストセットでの評価は、モデルのパフォーマンスにおいて大きなギャップを示している。 最後に、モデルに対する対戦性評価に対する現在のアプローチは、それ自体が問題であると指摘し、それらは容易に回避でき、現在の形式では、モデルロバスト性についての十分な深い調査を表現していない。 我々はNLPにおけるロバスト性の問題が未解決であるだけでなく、ロバスト性を測定するアプローチも再評価する必要があると結論付けている。

Do larger and more performant models resolve NLP's longstanding robustness issues? We investigate this question using over 20 models of different sizes spanning different architectural choices and pretraining objectives. We conduct evaluations using (a) out-of-domain and challenge test sets, (b) behavioral testing with CheckLists, (c) contrast sets, and (d) adversarial inputs. Our analysis reveals that not all out-of-domain tests provide insight into robustness. Evaluating with CheckLists and contrast sets shows significant gaps in model performance; merely scaling models does not make them adequately robust. Finally, we point out that current approaches for adversarial evaluations of models are themselves problematic: they can be easily thwarted, and in their current forms, do not represent a sufficiently deep probe of model robustness. We conclude that not only is the question of robustness in NLP as yet unresolved, but even some of the approaches to measure robustness need to be reassessed.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-03
# CV-Attention UNet: Antention-based UNet for 3D Cerebrovascular Segmentation of Enhanced TOF-MRA Images

CV-Attention UNet: Attention-based UNet for 3D Cerebrovascular Segmentation of Enhanced TOF-MRA Images ( http://arxiv.org/abs/2311.10224v2 )

ライセンス: Link先を確認
Syed Farhan Abbas, Nguyen Thanh Duc, Yoonguu Song, Kyungwon Kim, Ekta Srivastava, Boreom Lee, (参考訳) 自動的な方法がないため、脳血管疾患を診断するために、TOF-MRA(Time-of-light magnetic resonance angiography)が視覚的に評価され、時間を要する。 一般的に使用される脳血管のセグメンテーションのためのエンコーダ・デコーダアーキテクチャは冗長な特徴を利用しており、最終的には複数の低レベル特徴の抽出に繋がった。 さらに、畳み込みニューラルネットワーク(CNN)はバッチサイズが小さくなると性能劣化に悩まされ、より深いネットワークは消滅する勾配問題を経験する。 方法: 本論文では, 脳血管画像の正確な抽出のために, CV-AttentionUNetと呼ばれる3次元脳血管注意UNet法を提案する。 脳卒中につながる脳血管のセグメンテーションの精度を向上させるために,我々は一連の前処理手法の提案を行った。 低と高のセマンティクスを組み合わせるために,注意機構を適用した。 このメカニズムは関連する関連性に注目し、無関係な解剖情報を無視する。 さらに、ディープ・インテリジェンス(英語版)の導入は、ネットワークの収束に有益であることを示す様々なレベルの特徴を取り入れている。 結果: ラベルのないデータセットを相互検証することで, 提案手法の有効性を実証した。 このアルゴリズムの斬新さは、ラベル付きデータとラベルなしデータの両方で、画像処理による拡張をうまく行う能力に起因していると信じている。 以上の結果から,本手法は既存のTuneTKデータセットの最先端手法よりも優れた性能を示した。 結論】脳卒中に至る脳血管構造の正確なセグメンテーションを支援する手法の提案

Due to the lack of automated methods, to diagnose cerebrovascular disease, time-of-flight magnetic resonance angiography (TOF-MRA) is assessed visually, making it time-consuming. The commonly used encoder-decoder architectures for cerebrovascular segmentation utilize redundant features, eventually leading to the extraction of low-level features multiple times. Additionally, convolutional neural networks (CNNs) suffer from performance degradation when the batch size is small, and deeper networks experience the vanishing gradient problem. Methods: In this paper, we attempt to solve these limitations and propose the 3D cerebrovascular attention UNet method, named CV-AttentionUNet, for precise extraction of brain vessel images. We proposed a sequence of preprocessing techniques followed by deeply supervised UNet to improve the accuracy of segmentation of the brain vessels leading to a stroke. To combine the low and high semantics, we applied the attention mechanism. This mechanism focuses on relevant associations and neglects irrelevant anatomical information. Furthermore, the inclusion of deep supervision incorporates different levels of features that prove to be beneficial for network convergence. Results: We demonstrate the efficiency of the proposed method by cross-validating with an unlabeled dataset, which was further labeled by us. We believe that the novelty of this algorithm lies in its ability to perform well on both labeled and unlabeled data with image processing-based enhancement. The results indicate that our method performed better than the existing state-of-the-art methods on the TubeTK dataset. Conclusion: The proposed method will help in accurate segmentation of cerebrovascular structure leading to stroke
翻訳日:2024-04-04 22:47:12 公開日:2024-04-03
# 責任ある生成AIに向けて:基礎モデルに基づくエージェントを設計するための参照アーキテクチャ

Towards Responsible Generative AI: A Reference Architecture for Designing Foundation Model based Agents ( http://arxiv.org/abs/2311.13148v3 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Stefan Harrer, Jon Whittle, (参考訳) 大規模言語モデル(LLM)のような基礎モデルは、推論機能を備えた計画を含むコンテンツを理解し、生成する能力のために、変革的AI技術として広く認識されている。 ファンデーションモデルに基づくエージェントは、ファンデーションモデルの能力から自主性を得る。これにより、与えられた目標を自律的に管理可能なタスクのセットに分解し、目標を達成するためにタスク実行を編成することが可能になる。 基礎モデルに基づくエージェントの構築に多大な努力を払っているにもかかわらず、エージェントのアーキテクチャ設計はまだ体系化されていない。 また、エージェントを計画や実行に使用するという大きなメリットもあるが、セキュリティや説明責任など、AI関連のソフトウェア品質特性の責任については、深刻な考慮事項がある。 そこで本研究では,基礎モデルに基づくエージェントの設計におけるガイダンスとして機能するパターン指向参照アーキテクチャを提案する。 2つの実世界のエージェントのアーキテクチャにマッピングすることで,提案する参照アーキテクチャの完全性と有用性を評価する。

Foundation models, such as large language models (LLMs), have been widely recognised as transformative AI technologies due to their capabilities to understand and generate content, including plans with reasoning capabilities. Foundation model based agents derive their autonomy from the capabilities of foundation models, which enable them to autonomously break down a given goal into a set of manageable tasks and orchestrate task execution to meet the goal. Despite the huge efforts put into building foundation model based agents, the architecture design of the agents has not yet been systematically explored. Also, while there are significant benefits of using agents for planning and execution, there are serious considerations regarding responsible AI related software quality attributes, such as security and accountability. Therefore, this paper presents a pattern-oriented reference architecture that serves as guidance when designing foundation model based agents. We evaluate the completeness and utility of the proposed reference architecture by mapping it to the architecture of two real-world agents.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-03
# 最適速度を持つKL条件下での微分プライベート非凸最適化

Differentially Private Non-Convex Optimization under the KL Condition with Optimal Rates ( http://arxiv.org/abs/2311.13447v2 )

ライセンス: Link先を確認
Michael Menart, Enayat Ullah, Raman Arora, Raef Bassily, Cristóbal Guzmán, (参考訳) 我々は,(\gamma,\kappa)$-Kurdyka-{\L}ojasiewicz (KL)条件を満たす損失に対する個人的経験的リスク最小化(ERM)問題を考察した。 Polyak-{\L}ojasiewicz (PL) 条件はこの条件の特別な場合である。 具体的には、この問題をゼロ集中微分プライバシー(zCDP)の制約の下で研究する。 $\kappa\in[1,2]$と損失関数が十分に大きな領域上でリプシッツで滑らかな場合、$n$がデータセットのサイズであり、$d$が次元である場合、過剰な経験的リスクに基づいて、$\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$が次元であるような分散還元勾配勾配に基づく新しいアルゴリズムを提供する。 さらに、この速度がほぼ最適であることを示す。 $\kappa \geq 2$ そして損失がリプシッツと弱凸であるとき、近点法のプライベート実装で$\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$を達成することができる。 KLパラメータが未知の場合、ノイズ勾配降下アルゴリズムの新たな修正と解析を行い、このアルゴリズムが$\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{\frac{2\kappa}{4-\kappa}}\big)$を適応的に達成し、$\kappa = 2$とほぼ最適であることを示す。 さらに、KL条件を仮定せずに、アルゴリズムの実行中に勾配が十分に大きいとき、同じ勾配降下アルゴリズムが定常点への高速収束を実現することを示す。 具体的には、このアルゴリズムはリプシッツの定常点を近似することができ、$\tilde{O}\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)$ と $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{1/2}\big)$ と速くなる。 後者のレートは、分散還元に依存しないメソッドの最もよく知られたレートと一致する。

We study private empirical risk minimization (ERM) problem for losses satisfying the $(\gamma,\kappa)$-Kurdyka-{\L}ojasiewicz (KL) condition. The Polyak-{\L}ojasiewicz (PL) condition is a special case of this condition when $\kappa=2$. Specifically, we study this problem under the constraint of $\rho$ zero-concentrated differential privacy (zCDP). When $\kappa\in[1,2]$ and the loss function is Lipschitz and smooth over a sufficiently large region, we provide a new algorithm based on variance reduced gradient descent that achieves the rate $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$ on the excess empirical risk, where $n$ is the dataset size and $d$ is the dimension. We further show that this rate is nearly optimal. When $\kappa \geq 2$ and the loss is instead Lipschitz and weakly convex, we show it is possible to achieve the rate $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$ with a private implementation of the proximal point method. When the KL parameters are unknown, we provide a novel modification and analysis of the noisy gradient descent algorithm and show that this algorithm achieves a rate of $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{\frac{2\kappa}{4-\kappa}}\big)$ adaptively, which is nearly optimal when $\kappa = 2$. We further show that, without assuming the KL condition, the same gradient descent algorithm can achieve fast convergence to a stationary point when the gradient stays sufficiently large during the run of the algorithm. Specifically, we show that this algorithm can approximate stationary points of Lipschitz, smooth (and possibly nonconvex) objectives with rate as fast as $\tilde{O}\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)$ and never worse than $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{1/2}\big)$. The latter rate matches the best known rate for methods that do not rely on variance reduction.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-03
# 複素吸収ポテンシャルを持つ量子コンピュータ上の非単位時間依存シュロディンガー方程式の効率的な解法

Efficient solution of the non-unitary time-dependent Schrodinger equation on a quantum computer with complex absorbing potential ( http://arxiv.org/abs/2311.15859v2 )

ライセンス: Link先を確認
Mariane Mangin-Brinet, Jing Zhang, Denis Lacroix, Edgar Andres Ruiz Guzman, (参考訳) 量子コンピュータを用いてグリッド上に1次元のリアルタイムSchr\"odinger進化を解く際に,その境界に複雑な吸収ポテンシャルを加える可能性を探る。 複雑なポテンシャルのため、進化は実時間と想像時間の伝搬を混合し、波動関数は時間伝播中に継続的に吸収される可能性がある。 拡張量子アルゴリズムを用いて、実時間伝播と平行な仮想時間進化を取り扱う。 この手法は, 所望の虚構時間進化を実装するために, 一定の成功確率で測定した, 一度に1つの貯水池量子ビットしか使用しないという利点がある。 本稿では,メッシュ上で進化する連続吸収状態の物理ノルムに直接,成功確率を関連付けるダイレーション法について,特定の処方則を提案する。 提案した処方薬は、ほとんどの物理的状況において高い成功率を維持するという利点を期待する。 この手法の応用はメッシュ上での1次元波動関数の進化に応用される。 量子コンピュータで得られた結果は、古典的コンピュータで得られたものと同一である。 最後に、拡張行列の実装の複雑さについて詳細な議論を行う。 ポテンシャルの局所的性質のため、拡張行列は時間ステップごとに2^n$ CNOTと2^n$ユニタリ回転しか必要としないが、一般ユニタリ行列に対して最もよく知られたアルゴリズムを用いて実装するためには4^{n+1}$ C-NOTゲートの順序が必要となる。

We explore the possibility of adding complex absorbing potential at the boundaries when solving the one-dimensional real-time Schr\"odinger evolution on a grid using a quantum computer with a fully quantum algorithm described on a $n$ qubit register. Due to the complex potential, the evolution mixes real- and imaginary-time propagation and the wave function can potentially be continuously absorbed during the time propagation. We use the dilation quantum algorithm to treat the imaginary-time evolution in parallel to the real-time propagation. This method has the advantage of using only one reservoir qubit at a time, that is measured with a certain success probability to implement the desired imaginary-time evolution. We propose a specific prescription for the dilation method where the success probability is directly linked to the physical norm of the continuously absorbed state evolving on the mesh. We expect that the proposed prescription will have the advantage of keeping a high probability of success in most physical situations. Applications of the method are made on one-dimensional wave functions evolving on a mesh. Results obtained on a quantum computer identify with those obtained on a classical computer. We finally give a detailed discussion on the complexity of implementing the dilation matrix. Due to the local nature of the potential, for $n$ qubits, the dilation matrix only requires $2^n$ CNOT and $2^n$ unitary rotation for each time step, whereas it would require of the order of $4^{n+1}$ C-NOT gates to implement it using the best-known algorithm for general unitary matrices.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-03
# 学習可能な領域によるテキスト駆動画像編集

Text-Driven Image Editing via Learnable Regions ( http://arxiv.org/abs/2311.16432v2 )

ライセンス: Link先を確認
Yuanze Lin, Yi-Wen Chen, Yi-Hsuan Tsai, Lu Jiang, Ming-Hsuan Yang, (参考訳) 言語は画像編集の自然なインターフェースとして登場した。 本稿では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。 具体的には、既存のトレーニング済みのテキスト・ツー・イメージモデルを活用し、テキスト・プロンプトに整合した編集領域を特定するためのバウンディングボックス・ジェネレータを導入する。 この単純なアプローチは、現在の画像生成モデルと互換性のある柔軟な編集を可能にし、複数のオブジェクト、複雑な文、長い段落を含む複雑なプロンプトを処理可能であることを示す。 我々は,この手法を最先端の手法と比較するために,広範囲にわたるユーザスタディを実施している。 実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を実証した。 私たちのプロジェクトのWebページは以下の通りです。

Language has emerged as a natural interface for image editing. In this paper, we introduce a method for region-based image editing driven by textual prompts, without the need for user-provided masks or sketches. Specifically, our approach leverages an existing pre-trained text-to-image model and introduces a bounding box generator to identify the editing regions that are aligned with the textual prompts. We show that this simple approach enables flexible editing that is compatible with current image generation models, and is able to handle complex prompts featuring multiple objects, complex sentences, or lengthy paragraphs. We conduct an extensive user study to compare our method against state-of-the-art methods. The experiments demonstrate the competitive performance of our method in manipulating images with high fidelity and realism that correspond to the provided language descriptions. Our project webpage can be found at: https://yuanze-lin.me/LearnableRegions_page.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-03
# LLaFS: 大きな言語モデルがFew-Shotセグメンテーションに出会ったとき

LLaFS: When Large Language Models Meet Few-Shot Segmentation ( http://arxiv.org/abs/2311.16926v5 )

ライセンス: Link先を確認
Lanyun Zhu, Tianrun Chen, Deyi Ji, Jieping Ye, Jun Liu, (参考訳) 本稿では,LLaFSを提案する。LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。 LLaFSは、注釈付きサポート画像からの限られた偏り情報のみに依存する従来のいくつかのショットセグメンテーション法とは対照的に、LLMが獲得した膨大な事前知識を効果的なサプリメントとして活用し、数ショットで画像のセグメンテーションにLLMを直接利用する。 テキストベースのLLMが画像関連タスクを処理できるようにするため,LLMがポリゴンとして表現されたセグメンテーション結果を生成するための入力命令を慎重に設計し,人間の視覚機構をシミュレートし,マルチモーダルガイダンスを提供する領域属性テーブルを提案する。 また、擬似サンプルを合成し、データ拡張のための事前学習にカリキュラム学習を使用し、より良い最適化を実現する。 LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。

This paper proposes LLaFS, the first attempt to leverage large language models (LLMs) in few-shot segmentation. In contrast to the conventional few-shot segmentation methods that only rely on the limited and biased information from the annotated support images, LLaFS leverages the vast prior knowledge gained by LLM as an effective supplement and directly uses the LLM to segment images in a few-shot manner. To enable the text-based LLM to handle image-related tasks, we carefully design an input instruction that allows the LLM to produce segmentation results represented as polygons, and propose a region-attribute table to simulate the human visual mechanism and provide multi-modal guidance. We also synthesize pseudo samples and use curriculum learning for pretraining to augment data and achieve better optimization. LLaFS achieves state-of-the-art results on multiple datasets, showing the potential of using LLMs for few-shot computer vision tasks.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-03
# Agent-OM: オントロジーマッチングのためのLLMエージェントの活用

Agent-OM: Leveraging LLM Agents for Ontology Matching ( http://arxiv.org/abs/2312.00326v2 )

ライセンス: Link先を確認
Zhangcheng Qiang, Weiqing Wang, Kerry Taylor, (参考訳) オントロジーマッチング(OM)は、異なるオントロジー間のセマンティック相互運用性を可能にし、関連するエンティティを整合させることで、その概念的不均一性を解決する。 OMシステムには、従来の知識ベースのエキスパートシステムと、より新しい機械学習ベースの予測システムという、2つの一般的な設計パラダイムがある。 大規模言語モデル (LLM) と LLM エージェントはデータ工学に革命をもたらし、多くの領域で創造的に応用されているが、OM の可能性はまだ未定である。 本研究は,OMシステムのための新しいエージェント駆動LLM設計パラダイムを提案する。 OM に LLM エージェントを利用する際のいくつかの課題を考慮し、単純なプロンプトベースの OM ツールのセットを用いて、2 つの Siamese エージェントを検索・マッチングするための Agent-OM という汎用フレームワークを提案する。 我々のフレームワークは概念実証システムで実装されている。 3つのオントロジーアライメント評価イニシアチブ (OAEI) のトラックを最先端OMシステム上で評価した結果, 単純なOMタスクにおける長年のベストパフォーマンスに非常に近い結果が得られ, 複雑かつ少ないOMタスクの性能を著しく向上させることができることがわかった。

Ontology matching (OM) enables semantic interoperability between different ontologies and resolves their conceptual heterogeneity by aligning related entities. OM systems currently have two prevailing design paradigms: conventional knowledge-based expert systems and newer machine learning-based predictive systems. While large language models (LLMs) and LLM agents have revolutionised data engineering and have been applied creatively in many domains, their potential for OM remains underexplored. This study introduces a novel agent-powered LLM-based design paradigm for OM systems. With consideration of several specific challenges in leveraging LLM agents for OM, we propose a generic framework, namely Agent-OM, consisting of two Siamese agents for retrieval and matching, with a set of simple prompt-based OM tools. Our framework is implemented in a proof-of-concept system. Evaluations of three Ontology Alignment Evaluation Initiative (OAEI) tracks over state-of-the-art OM systems show that our system can achieve results very close to the long-standing best performance on simple OM tasks and can significantly improve the performance on complex and few-shot OM tasks.
翻訳日:2024-04-04 22:47:12 公開日:2024-04-03
# FreeZe:幾何学的・視覚的基礎モデルを用いた無訓練ゼロショット6Dポーズ推定

FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models ( http://arxiv.org/abs/2312.00947v2 )

ライセンス: Link先を確認
Andrea Caraffa, Davide Boscaini, Amir Hamza, Fabio Poiesi, (参考訳) トレーニング中に見えない物体の6Dポーズを推定することは非常に望ましいが、難しい。 ゼロショットオブジェクト6Dポーズ推定手法は、大規模で写真リアリスティックな合成データセットによって提供されるタスク固有の監視を活用することで、この問題に対処する。 しかし、それらのパフォーマンスはレンダリングされたデータの品質と多様性に大きく依存し、広範なトレーニングを必要とします。 この研究では、特定のデータをトレーニングすることなく、同じタスクにどのように取り組むかを示す。 我々は、事前学習された幾何学的および視覚的基礎モデルの能力を利用する新しいソリューションFreeZeを提案する。 FreeZeは、無関係な3Dポイントクラウドから学んだ3D幾何学的記述子と、Webスケールの2D画像から学んだ2D視覚的特徴を活用して、差別的な3Dポイントレベル記述子を生成する。 次に、RANSACに基づく3次元登録により、未確認物体の6次元ポーズを推定する。 また,視覚的特徴に基づく幾何学的に対称な物体によるあいまいなケースの解法を提案する。 我々は、BOPベンチマークの7つのコアデータセットでFreeZeを総合的に評価し、100以上の3Dオブジェクトと20,000のイメージをさまざまなシナリオでキャプチャした。 FreeZeは、合成6Dポーズ推定データで広く訓練されたライバルを含む、最先端のアプローチを一貫して上回っている。 コードはhttps://andreacaraffa.github.io/freeze.comで公開される。

Estimating the 6D pose of objects unseen during training is highly desirable yet challenging. Zero-shot object 6D pose estimation methods address this challenge by leveraging additional task-specific supervision provided by large-scale, photo-realistic synthetic datasets. However, their performance heavily depends on the quality and diversity of rendered data and they require extensive training. In this work, we show how to tackle the same task but without training on specific data. We propose FreeZe, a novel solution that harnesses the capabilities of pre-trained geometric and vision foundation models. FreeZe leverages 3D geometric descriptors learned from unrelated 3D point clouds and 2D visual features learned from web-scale 2D images to generate discriminative 3D point-level descriptors. We then estimate the 6D pose of unseen objects by 3D registration based on RANSAC. We also introduce a novel algorithm to solve ambiguous cases due to geometrically symmetric objects that is based on visual features. We comprehensively evaluate FreeZe across the seven core datasets of the BOP Benchmark, which include over a hundred 3D objects and 20,000 images captured in various scenarios. FreeZe consistently outperforms all state-of-the-art approaches, including competitors extensively trained on synthetic 6D pose estimation data. Code will be publicly available at https://andreacaraffa.github.io/freeze.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# 単眼深度推定のための拡散型画像生成装置

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation ( http://arxiv.org/abs/2312.02145v2 )

ライセンス: Link先を確認
Bingxin Ke, Anton Obukhov, Shengyu Huang, Nando Metzger, Rodrigo Caye Daudt, Konrad Schindler, (参考訳) 単眼深度推定はコンピュータビジョンの基本課題である。 1枚の画像から3D深度を復元することは幾何学的に不適切であり、シーン理解を必要とするため、ディープラーニングの台頭が突破口となったことは驚くにあたらない。 単分子深度推定器の顕著な進歩は、比較的控えめなCNNから大きなTransformerアーキテクチャに至るまで、モデルの容量の増加を反映している。 それでも、単眼深度推定器は、トレーニング中に見られるデータによって視覚世界に関する知識が制限され、新しい領域へのゼロショット一般化によって挑戦されるため、不慣れな内容とレイアウトの画像を提示する際に苦労する傾向にある。 このことは、最近の生成拡散モデルで得られた広範囲の事前がより良く、より一般化可能な深さ推定を可能にするかどうかを探求する動機となる。 安定拡散から導かれるアフィン不変単分子深度推定法であるMarigoldを導入する。 この推定器は、合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。 特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。 プロジェクトページ: https://marigoldmonodepth.github.io

Monocular depth estimation is a fundamental computer vision task. Recovering 3D depth from a single image is geometrically ill-posed and requires scene understanding, so it is not surprising that the rise of deep learning has led to a breakthrough. The impressive progress of monocular depth estimators has mirrored the growth in model capacity, from relatively modest CNNs to large Transformer architectures. Still, monocular depth estimators tend to struggle when presented with images with unfamiliar content and layout, since their knowledge of the visual world is restricted by the data seen during training, and challenged by zero-shot generalization to new domains. This motivates us to explore whether the extensive priors captured in recent generative diffusion models can enable better, more generalizable depth estimation. We introduce Marigold, a method for affine-invariant monocular depth estimation that is derived from Stable Diffusion and retains its rich prior knowledge. The estimator can be fine-tuned in a couple of days on a single GPU using only synthetic training data. It delivers state-of-the-art performance across a wide range of datasets, including over 20% performance gains in specific cases. Project page: https://marigoldmonodepth.github.io.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# ダウンリンクFD-RANのためのチャネルフィードバックフリー伝送:無線マップに基づく複素数値プリコーディングネットワークアプローチ

Channel-Feedback-Free Transmission for Downlink FD-RAN: A Radio Map based Complex-valued Precoding Network Approach ( http://arxiv.org/abs/2312.02184v2 )

ライセンス: Link先を確認
Jiwei Zhao, Jiacheng Chen, Zeyu Sun, Yuhang Shi, Haibo Zhou, Xuemin, Shen, (参考訳) 高品質サービスの需要が増大するにつれて、ネットワークアーキテクチャの革新、完全に分離されたRAN(FD-RAN)が、より柔軟なスペクトルリソース利用とネットワークコストの低減のために出現している。 しかし、FD-RANにおけるアップリンク基地局とダウンリンク基地局の分離により、リアルタイムチャネルフィードバックに依存する従来の送信機構は、受信機が正確でタイムリーなチャネル状態情報を送信者にフィードバックできないため、不適当である。 本稿では,物理層チャネルのフィードバックに頼ることなく,新しい伝送方式を提案する。 具体的には,無線地図に基づく複合値プリコーディングネットワーク~RMCPNetモデルを設計し,ユーザ位置に基づいて基地局プリコーディングを出力する。 RMCPNetは複数のサブネットから構成され、各サブネットは様々な入力モーダルからユニークなモーダル特徴を抽出する。 さらに、これらの異なるサブネットから派生したマルチモーダル埋め込みを情報融合層に統合し、統一表現に終止符を打つ。 また、損失関数として負のスペクトル効率を利用するRMCPNetトレーニングアルゴリズムを開発した。 提案手法をパブリックなDeepMIMOデータセット上で評価し,RMCPNetが従来の実数値ニューラルネットワークと統計コードブックのアプローチでそれぞれ16倍,76倍の性能向上を実現可能であることを示す。

As the demand for high-quality services proliferates, an innovative network architecture, the fully-decoupled RAN (FD-RAN), has emerged for more flexible spectrum resource utilization and lower network costs. However, with the decoupling of uplink base stations and downlink base stations in FD-RAN, the traditional transmission mechanism, which relies on real-time channel feedback, is not suitable as the receiver is not able to feedback accurate and timely channel state information to the transmitter. This paper proposes a novel transmission scheme without relying on physical layer channel feedback. Specifically, we design a radio map based complex-valued precoding network~(RMCPNet) model, which outputs the base station precoding based on user location. RMCPNet comprises multiple subnets, with each subnet responsible for extracting unique modal features from diverse input modalities. Furthermore, the multi-modal embeddings derived from these distinct subnets are integrated within the information fusion layer, culminating in a unified representation. We also develop a specific RMCPNet training algorithm that employs the negative spectral efficiency as the loss function. We evaluate the performance of the proposed scheme on the public DeepMIMO dataset and show that RMCPNet can achieve 16\% and 76\% performance improvements over the conventional real-valued neural network and statistical codebook approach, respectively.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# 合成ニューラルネットワークを用いた動的LiDAR再シミュレーション

Dynamic LiDAR Re-simulation using Compositional Neural Fields ( http://arxiv.org/abs/2312.05247v2 )

ライセンス: Link先を確認
Hanfeng Wu, Xingxing Zuo, Stefan Leutenegger, Or Litany, Konrad Schindler, Shengyu Huang, (参考訳) 我々は、動的駆動シーンにおけるLiDARスキャンの高忠実度再シミュレーションのための新しいニューラルネットワークベースのアプローチであるDyNFLを紹介する。 DyNFLは、移動物体のバウンディングボックスを伴う動的環境からのLiDAR測定を処理し、編集可能なニューラルフィールドを構築する。 このフィールドは、別々に再構成された静的な背景と動的オブジェクトから構成されており、ユーザーは視点を変更したり、オブジェクトの位置を調整したり、再現されたシーンでオブジェクトをシームレスに追加したり削除したりすることができる。 この手法の重要な革新は、様々なシーンから再構成されたニューラルネットワークをレイドロップテストを通じて効果的に統合し、オクルージョンと透明な表面を考慮に入れた、ニューラルネットワーク合成技術である。 実環境と実環境の両方で評価した結果,DyNFLは動的シーンのLiDARシミュレーションを大幅に改善し,物理的忠実度とフレキシブルな編集機能の組み合わせを提供することがわかった。

We introduce DyNFL, a novel neural field-based approach for high-fidelity re-simulation of LiDAR scans in dynamic driving scenes. DyNFL processes LiDAR measurements from dynamic environments, accompanied by bounding boxes of moving objects, to construct an editable neural field. This field, comprising separately reconstructed static background and dynamic objects, allows users to modify viewpoints, adjust object positions, and seamlessly add or remove objects in the re-simulated scene. A key innovation of our method is the neural field composition technique, which effectively integrates reconstructed neural assets from various scenes through a ray drop test, accounting for occlusions and transparent surfaces. Our evaluation with both synthetic and real-world environments demonstrates that DyNFL substantially improves dynamic scene LiDAR simulation, offering a combination of physical fidelity and flexible editing capabilities.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# 映像行動検出のための半教師付き能動学習

Semi-supervised Active Learning for Video Action Detection ( http://arxiv.org/abs/2312.07169v3 )

ライセンス: Link先を確認
Ayush Singh, Aayush J Rana, Akash Kumar, Shruti Vyas, Yogesh Singh Rawat, (参考訳) 本研究では,映像行動検出のためのラベル学習に焦点をあてる。 本研究では,ラベル付きデータとラベルなしデータと,行動検出のための情報的サンプル選択を併用した,新しい半教師付きアクティブラーニング手法を開発した。 ビデオ行動検出には時空間的局所化と分類が必要であるため、アクティブな学習情報サンプル選択と半教師付き学習擬似ラベル生成の両方にいくつかの課題が生じる。 まず,映像行動検出のための情報サンプルを効果的に選択するシンプルな拡張戦略であるNossAugを提案する。 次に、ビデオ内の関連活動領域を強調することで、ビデオアクション検出におけるSSLの擬似ラベルの有効活用を可能にする、ハイパスフィルタリングに基づく新しい技術であるfft-attentionを提案する。 提案手法を,UCF-101-24,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットで評価した。 まず,提案手法は,UCF101-24とJHMDB-21の両方のベースラインアプローチとともに,半教師付き・弱教師付き学習において先行して機能するビデオアクション検出に有効であることを示す。 次に、ビデオ内の他の密集予測タスクに対する一般化能力を示すビデオオブジェクトセグメンテーションにおけるYoutube-VOSの有効性を示す。 コードとモデルは: \url{https://github.com/AKASH2907/semi-sup-active-learning}で公開されている。

In this work, we focus on label efficient learning for video action detection. We develop a novel semi-supervised active learning approach which utilizes both labeled as well as unlabeled data along with informative sample selection for action detection. Video action detection requires spatio-temporal localization along with classification, which poses several challenges for both active learning informative sample selection as well as semi-supervised learning pseudo label generation. First, we propose NoiseAug, a simple augmentation strategy which effectively selects informative samples for video action detection. Next, we propose fft-attention, a novel technique based on high-pass filtering which enables effective utilization of pseudo label for SSL in video action detection by emphasizing on relevant activity region within a video. We evaluate the proposed approach on three different benchmark datasets, UCF-101-24, JHMDB-21, and Youtube-VOS. First, we demonstrate its effectiveness on video action detection where the proposed approach outperforms prior works in semi-supervised and weakly-supervised learning along with several baseline approaches in both UCF101-24 and JHMDB-21. Next, we also show its effectiveness on Youtube-VOS for video object segmentation demonstrating its generalization capability for other dense prediction tasks in videos. The code and models is publicly available at: \url{https://github.com/AKASH2907/semi-sup-active-learning}.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# ReCoRe: 世界モデルの正規化コントラスト表現学習

ReCoRe: Regularized Contrastive Representation Learning of World Model ( http://arxiv.org/abs/2312.09056v2 )

ライセンス: Link先を確認
Rudra P. K. Poudel, Harit Pandya, Stephan Liwicki, Roberto Cipolla, (参考訳) 近年のモデルフリー強化学習(RL)手法はゲーム環境における人間レベルの有効性を示したが、視覚ナビゲーションのような日常的なタスクにおける成功は制限されており、特に顕著な外観変化が見られた。 この制限は (i)サンプル効率が悪くて (ii) トレーニングシナリオに過度に適合する。 これらの課題に対処するために、不変特徴を学習する世界モデルを提案する。 一 対照的に教師なしの学習及び (ii)介入不変正則化器。 世界モデルの明示的な表現、すなわち世界モデルの学習は、サンプル効率を改善し、対照的な学習は暗黙的に不変の特徴の学習を強制し、一般化を改善する。 しかし、世界モデルに基づくRL手法は、表現学習とエージェントポリシーを独立して最適化するので、世界モデルに対する「対比的損失」の統合は不十分である。 この問題を克服するため、我々は、スタイルの介入を明示的に強制する、深度予測、画像認識、画像分割などの補助的なタスクの形で、介入不変な正規化器を提案する。 提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。 視覚的な観察だけで、我々のアプローチは、限られた計算能力を持つロボットへの展開に欠かせない、ポイントナビゲーションのための最近の言語誘導基盤モデルよりも優れていることを示す。 最後に,提案モデルがギブソンベンチマーク上での認識モジュールのsim-to-real転送において優れていることを示す。

While recent model-free Reinforcement Learning (RL) methods have demonstrated human-level effectiveness in gaming environments, their success in everyday tasks like visual navigation has been limited, particularly under significant appearance variations. This limitation arises from (i) poor sample efficiency and (ii) over-fitting to training scenarios. To address these challenges, we present a world model that learns invariant features using (i) contrastive unsupervised learning and (ii) an intervention-invariant regularizer. Learning an explicit representation of the world dynamics i.e. a world model, improves sample efficiency while contrastive learning implicitly enforces learning of invariant features, which improves generalization. However, the na\"ive integration of contrastive loss to world models is not good enough, as world-model-based RL methods independently optimize representation learning and agent policy. To overcome this issue, we propose an intervention-invariant regularizer in the form of an auxiliary task such as depth prediction, image denoising, image segmentation, etc., that explicitly enforces invariance to style interventions. Our method outperforms current state-of-the-art model-based and model-free RL methods and significantly improves on out-of-distribution point navigation tasks evaluated on the iGibson benchmark. With only visual observations, we further demonstrate that our approach outperforms recent language-guided foundation models for point navigation, which is essential for deployment on robots with limited computation capabilities. Finally, we demonstrate that our proposed model excels at the sim-to-real transfer of its perception module on the Gibson benchmark.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# ElasticLaneNet: レーン検出のための効率的な幾何学的フレキシブルアプローチ

ElasticLaneNet: An Efficient Geometry-Flexible Approach for Lane Detection ( http://arxiv.org/abs/2312.10389v2 )

ライセンス: Link先を確認
Yaxin Feng, Yuan Lan, Luchan Zhang, Yang Xiang, (参考訳) 車線検出の課題は、リアルタイムで運転領域の境界を特定することである。 可変かつ複雑な幾何学構造を持つ車線を認識することは依然として困難である。 本稿では,新しい暗黙のレーン表現手法である「textit{Elastic Lane map (ELM)」について検討し,効率的な物理インフォームドエンド・ツー・エンドレーン検出フレームワークであるElasticLaneNetを提案する。 このアプローチは、予測された車線を、弾性相互作用エネルギー損失関数(EIE損失)によって導かれる基底の真理に惹かれる、柔軟に形の \textit{ELM} 上を動くゼロ輪郭とみなす。 我々のフレームワークはグローバルな情報と低レベルの機能をうまく統合しています。 この手法は、大きな曲率を持つもの、交差点の弱い幾何学的特徴を持つもの、複雑なクロスレーン、Y-shapesレーン、高密度レーンなど、複雑なレーンのシナリオでよく機能する。 SDLane、CULane、TuSimpleの3つのデータセットにアプローチを適用します。 その結果, 構造的に多様性のあるSDLaneに対して, 89.51のF1スコア, 87.50のリコール率, 高速な推論速度で91.61の精度を実現した。

The task of lane detection involves identifying the boundaries of driving areas in real-time. Recognizing lanes with variable and complex geometric structures remains a challenge. In this paper, we explore a novel and flexible way of implicit lanes representation named \textit{Elastic Lane map (ELM)}, and introduce an efficient physics-informed end-to-end lane detection framework, namely, ElasticLaneNet (Elastic interaction energy-informed Lane detection Network). The approach considers predicted lanes as moving zero-contours on the flexibly shaped \textit{ELM} that are attracted to the ground truth guided by an elastic interaction energy-loss function (EIE loss). Our framework well integrates the global information and low-level features. The method performs well in complex lane scenarios, including those with large curvature, weak geometry features at intersections, complicated cross lanes, Y-shapes lanes, dense lanes, etc. We apply our approach on three datasets: SDLane, CULane, and TuSimple. The results demonstrate exceptional performance of our method, with the state-of-the-art results on the structurally diverse SDLane, achieving F1-score of 89.51, Recall rate of 87.50, and Precision of 91.61 with fast inference speed.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# あなたの学生は予想以上に良い: テキスト・コンディション・拡散モデルのための適応型教師・学生協調

Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models ( http://arxiv.org/abs/2312.10835v3 )

ライセンス: Link先を確認
Nikita Starodubcev, Artem Fedorov, Artem Babenko, Dmitry Baranchuk, (参考訳) 近年, 知識蒸留法は, 少数の推論ステップを必要とせず, 大規模拡散モデルの合成を高速化する上で有望な方向であることが示されている。 最近、いくつかの強力な蒸留法が提案されているが、学生標本の全体的な品質は教師のものよりも低い。 本研究では,教師のテキスト・画像拡散モデルによるサンプルの相対的品質とその蒸留された学生版について検討する。 筆者らの主な経験的発見として,学生標本の顕著な部分は,生徒の「近似的」な性質にもかかわらず,教師のものよりも優れた忠実さを示すことが判明した。 そこで本研究では,学生と教師の拡散モデルを用いた効果的なテキスト・画像合成手法を提案する。 具体的には、蒸留したモデルが初期サンプルを生成し、その後、オラクルが遅い教師モデルでさらなる改善が必要であるかどうかを判断する。 大規模な実験により、デザインされたパイプラインは、人間の好みの観点から様々な推論予算に対して最先端のテキスト・ツー・イメージの代替を超越していることが示された。 さらに、テキスト誘導画像編集や制御可能な生成など、一般的なアプリケーションでは、提案手法が自然に利用できる。

Knowledge distillation methods have recently shown to be a promising direction to speedup the synthesis of large-scale diffusion models by requiring only a few inference steps. While several powerful distillation methods were recently proposed, the overall quality of student samples is typically lower compared to the teacher ones, which hinders their practical usage. In this work, we investigate the relative quality of samples produced by the teacher text-to-image diffusion model and its distilled student version. As our main empirical finding, we discover that a noticeable portion of student samples exhibit superior fidelity compared to the teacher ones, despite the "approximate" nature of the student. Based on this finding, we propose an adaptive collaboration between student and teacher diffusion models for effective text-to-image synthesis. Specifically, the distilled model produces the initial sample, and then an oracle decides whether it needs further improvements with a slow teacher model. Extensive experiments demonstrate that the designed pipeline surpasses state-of-the-art text-to-image alternatives for various inference budgets in terms of human preference. Furthermore, the proposed approach can be naturally used in popular applications such as text-guided image editing and controllable generation.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# 反復的局所展開による効率的かつスケーラブルなグラフ生成

Efficient and Scalable Graph Generation through Iterative Local Expansion ( http://arxiv.org/abs/2312.11529v3 )

ライセンス: Link先を確認
Andreas Bergmeister, Karolis Martinkus, Nathanaël Perraudin, Roger Wattenhofer, (参考訳) グラフ生成モデルの領域では、広範な研究がなされている。 しかし、既存のほとんどの手法は、全てのノード対にまたがる結合分布全体を表現し、グローバルグラフとローカルグラフの両方を同時にキャプチャする複雑さのために、大きなグラフに苦しむ。 これらの問題を克服するために,単一ノードを対象グラフに段階的に拡張してグラフを生成する手法を提案する。 各ステップにおいて、ノードとエッジは拡散を減らし、まずグローバル構造を構築し、次に局所的な詳細を精査することで局所的に追加される。 局所生成は、全てのノード対に対する結合分布全体のモデリングを回避し、マルチスケール生成による高い表現性を維持しながら、ノード数に対するサブクワッドラティックランタイムによる実質的な計算的節約を達成する。 実験により,我々のモデルは,5,000ノード以上のグラフへのスケーリングを成功裏に,確立されたベンチマークデータセット上での最先端のパフォーマンスを実現することを示す。 また,本手法はトレーニング分布外のグラフへの外挿に成功し,既存の手法よりもはるかに優れた一般化能力を示す。

In the realm of generative models for graphs, extensive research has been conducted. However, most existing methods struggle with large graphs due to the complexity of representing the entire joint distribution across all node pairs and capturing both global and local graph structures simultaneously. To overcome these issues, we introduce a method that generates a graph by progressively expanding a single node to a target graph. In each step, nodes and edges are added in a localized manner through denoising diffusion, building first the global structure, and then refining the local details. The local generation avoids modeling the entire joint distribution over all node pairs, achieving substantial computational savings with subquadratic runtime relative to node count while maintaining high expressivity through multiscale generation. Our experiments show that our model achieves state-of-the-art performance on well-established benchmark datasets while successfully scaling to graphs with at least 5000 nodes. Our method is also the first to successfully extrapolate to graphs outside of the training distribution, showcasing a much better generalization capability over existing methods.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# ビデオにおけるオブジェクトの状態変化の学習 : オープンワールドの視点から

Learning Object State Changes in Videos: An Open-World Perspective ( http://arxiv.org/abs/2312.11782v2 )

ライセンス: Link先を確認
Zihui Xue, Kumar Ashutosh, Kristen Grauman, (参考訳) オブジェクト状態変化(OSC)は、ビデオ理解において重要な要素である。 人類はOSCの理解を慣れ親しんだものから未知のものまで徹底的に一般化することができるが、現在のアプローチは閉じた語彙に限られている。 このギャップに対処するため,ビデオOSC問題に新たなオープンワールドの定式化を導入する。 目標は、トレーニング中にオブジェクトが観察されたかどうかに関わらず、OSCの3つのステージ -- オブジェクトの初期状態、遷移状態、および最終状態 -- を時間的にローカライズすることだ。 この目的に向けて,1)OSCトレーニングデータを手作業でラベル付けする上で,テキストおよび視覚言語モデルを活用すること,(2)オブジェクトからの詳細な共有状態表現を抽象化して一般化を促進すること,という,総合的な学習手法であるVidOSCを開発した。 さらに,ビデオOSCローカライゼーションのための最初のオープンワールドベンチマークであるHowToChangeについて述べる。 実験により,従来のクローズドワールドシナリオとオープンワールドシナリオの両方において,我々のアプローチの有効性が示された。

Object State Changes (OSCs) are pivotal for video understanding. While humans can effortlessly generalize OSC understanding from familiar to unknown objects, current approaches are confined to a closed vocabulary. Addressing this gap, we introduce a novel open-world formulation for the video OSC problem. The goal is to temporally localize the three stages of an OSC -- the object's initial state, its transitioning state, and its end state -- whether or not the object has been observed during training. Towards this end, we develop VidOSC, a holistic learning approach that: (1) leverages text and vision-language models for supervisory signals to obviate manually labeling OSC training data, and (2) abstracts fine-grained shared state representations from objects to enhance generalization. Furthermore, we present HowToChange, the first open-world benchmark for video OSC localization, which offers an order of magnitude increase in the label space and annotation volume compared to the best existing benchmark. Experimental results demonstrate the efficacy of our approach, in both traditional closed-world and open-world scenarios.
翻訳日:2024-04-04 22:37:19 公開日:2024-04-03
# ユニバーサルモーションが先行する拡散騒音の最適化

Optimizing Diffusion Noise Can Serve As Universal Motion Priors ( http://arxiv.org/abs/2312.11994v2 )

ライセンス: Link先を確認
Korrawe Karunratanakul, Konpat Preechakul, Emre Aksan, Thabo Beeler, Supasorn Suwajanakorn, Siyu Tang, (参考訳) 本研究では,既存の動き拡散モデルを広範囲な動作関連タスクの先行動作として効果的に活用する新しい手法である拡散雑音最適化(DNO)を提案する。 新しいタスクごとにタスク固有の拡散モデルをトレーニングする代わりに、DNOは既存の事前学習されたテキスト・ツー・モーションモデルの拡散潜時ノイズを最適化することで機能する。 人間の動きの対応する潜音を考慮に入れれば、運動空間上で定義された目標基準からデノナイジング過程全体を通して勾配を伝播させ、拡散潜音を更新する。 結果として、DNOは、基準を運動の関数として定義できるあらゆるユースケースをサポートしている。 特に、動作の編集と制御において、DNOは目標達成と動作内容の保存の両方において既存の手法よりも優れていることを示す。 DNOは、軌道の変更、ポーズ、関節位置の変更、新たに追加された障害物の回避など、様々な編集モードに対応している。 さらに、DNOは動きのデノゲーションと完了に有効であり、ノイズや部分的な入力から滑らかで現実的な動きを生み出す。 DNOは、モデル再訓練を必要とせずに、これらの結果を推論時に達成し、運動表現上の任意の定義された報酬や損失関数に対して大きな汎用性を提供する。

We propose Diffusion Noise Optimization (DNO), a new method that effectively leverages existing motion diffusion models as motion priors for a wide range of motion-related tasks. Instead of training a task-specific diffusion model for each new task, DNO operates by optimizing the diffusion latent noise of an existing pre-trained text-to-motion model. Given the corresponding latent noise of a human motion, it propagates the gradient from the target criteria defined on the motion space through the whole denoising process to update the diffusion latent noise. As a result, DNO supports any use cases where criteria can be defined as a function of motion. In particular, we show that, for motion editing and control, DNO outperforms existing methods in both achieving the objective and preserving the motion content. DNO accommodates a diverse range of editing modes, including changing trajectory, pose, joint locations, or avoiding newly added obstacles. In addition, DNO is effective in motion denoising and completion, producing smooth and realistic motion from noisy and partial inputs. DNO achieves these results at inference time without the need for model retraining, offering great versatility for any defined reward or loss function on the motion representation.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# RadEdit:拡散画像編集によるストレステストバイオメディカルビジョンモデル

RadEdit: stress-testing biomedical vision models via diffusion image editing ( http://arxiv.org/abs/2312.12865v3 )

ライセンス: Link先を確認
Fernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse, (参考訳) バイオメディカルイメージングデータセットは、しばしば小さく偏りがあるため、予測モデルの実際の性能は、内部テストで予想されるよりもかなり低い。 本研究は、生成画像編集を用いて、バイオメディカルビジョンモデルのデータセットシフトをシミュレートし、障害モードを診断することを提案する。 既存の編集手法は望ましくない変化を生じさせ、病気や治療介入の共起によって学習された急激な相関により、実用性を制限することができる。 そこで我々は,複数の胸部X線データセット上でテキスト・画像拡散モデルを訓練し,複数のマスクを用いた新しい編集手法RadEditを導入する。 我々は、取得シフト、マニフェストシフト、人口シフトの3つのタイプのデータセットシフトを検討し、我々のアプローチが障害を診断し、追加のデータ収集なしでモデルの堅牢性を定量化し、説明可能なAIのためのより質的なツールを補完することを示した。

Biomedical imaging datasets are often small and biased, meaning that real-world performance of predictive models can be substantially lower than expected from internal testing. This work proposes using generative image editing to simulate dataset shifts and diagnose failure modes of biomedical vision models; this can be used in advance of deployment to assess readiness, potentially reducing cost and patient harm. Existing editing methods can produce undesirable changes, with spurious correlations learned due to the co-occurrence of disease and treatment interventions, limiting practical applicability. To address this, we train a text-to-image diffusion model on multiple chest X-ray datasets and introduce a new editing method RadEdit that uses multiple masks, if present, to constrain changes and ensure consistency in the edited images. We consider three types of dataset shifts: acquisition shift, manifestation shift, and population shift, and demonstrate that our approach can diagnose failures and quantify model robustness without additional data collection, complementing more qualitative tools for explainable AI.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# 音声・視覚対話グラフ:エゴセントリック・エクソセントリックの視点から

The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective ( http://arxiv.org/abs/2312.12870v2 )

ライセンス: Link先を確認
Wenqi Jia, Miao Liu, Hao Jiang, Ishwarya Ananthabhotla, James M. Rehg, Vamsi Krishna Ithapu, Ruohan Gao, (参考訳) 近年、エゴセントリックビデオに関する研究が盛んに発展し、視覚信号と音声信号の両方が重要な役割を果たす会話相互作用の研究にユニークな視点を与えている。 多くの先行研究は、カメラ装着者に直接関わる行動について学ぶことに重点を置いているが、Ego-Exocentric Conversational Graph Prediction問題を導入し、エゴセントリックビデオからエゴセントリックな会話インタラクションを推測する最初の試みである。 本稿では、カメラ装着者だけでなく、エゴセントリックなビデオに登場した他のすべてのソーシャルパートナーに対して、会話行動(会話と聞き取り)を共同で予測するための統合マルチモーダル・フレームワーク、AV-CONVを提案する。 具体的には、時間、オブジェクト間、モダリティ間の表現をモデル化するために、自己認識メカニズムを採用します。 提案手法を検証するために,多話者・多会話シナリオを含む難易度ビデオデータセットの実験を行った。 本研究は,一連のベースラインと比較して,本手法の優れた性能を示すものである。 また,本モデルにおける各成分の寄与を評価するための詳細なアブレーション研究について述べる。 プロジェクトのページはhttps://vjwq.github.io/AV-CONV/にある。

In recent years, the thriving development of research related to egocentric videos has provided a unique perspective for the study of conversational interactions, where both visual and audio signals play a crucial role. While most prior work focus on learning about behaviors that directly involve the camera wearer, we introduce the Ego-Exocentric Conversational Graph Prediction problem, marking the first attempt to infer exocentric conversational interactions from egocentric videos. We propose a unified multi-modal framework -- Audio-Visual Conversational Attention (AV-CONV), for the joint prediction of conversation behaviors -- speaking and listening -- for both the camera wearer as well as all other social partners present in the egocentric video. Specifically, we adopt the self-attention mechanism to model the representations across-time, across-subjects, and across-modalities. To validate our method, we conduct experiments on a challenging egocentric video dataset that includes multi-speaker and multi-conversation scenarios. Our results demonstrate the superior performance of our method compared to a series of baselines. We also present detailed ablation studies to assess the contribution of each component in our model. Check our project page at https://vjwq.github.io/AV-CONV/.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# 共鳴蛍光におけるコヒーレンス

Coherence in resonance fluorescence ( http://arxiv.org/abs/2312.13743v2 )

ライセンス: Link先を確認
Xu-Jie Wang, Guoqi Huang, Ming-Yang Li, Yuan-Zhuo Wang, Li Liu, Bang Wu, Hanqing Liu, Haiqiao Ni, Zhichuan Niu, Weijie Ji, Rongzhen Jiao, Hua-Lei Yin, Zhiliang Yuan, (参考訳) 2レベルエミッターの共鳴蛍光(RF)は励起強度に関係なく持続的に反膨らみを示すが、弱い励起の下で駆動レーザーのリニア幅を継承する。 これらの性質は、放射体の単一光子飽和度や受動的散乱光として一般的には不一致に説明されるが、最近の理論ではレーザーのようなスペクトルが不整合散乱光との干渉に反結合している。 しかし、この理論は高次散乱過程を示唆し、2つの光子の原子の同時散乱を検証する実験につながった。 もし本当なら、量子情報応用におけるRFの展望を複雑にするかもしれない。 本稿では、すべてのRF光子を1回に1回ずつ自然放出として扱う統一モデルを提案し、RFのスペクトル特性と相関特性の両方を同時に説明できる。 理論上は励起パワー依存性を導出し, 単一光子の入射レベル, RFの1次コヒーレンス, スペクトルフィルタのスーパーバンチ, および半導体量子ドットマイクロピラーデバイス上での実験的検証を行った。 さらに,位相依存型2光子干渉実験で観測された特異な異常な集団化について説明する。 我々の研究は、コヒーレントな光-物質相互作用の新たな理解を提供し、新しい応用を刺激する可能性がある。

Resonance fluorescence (RF) of a two-level emitter displays persistently anti-bunching irrespective of the excitation intensity, but inherits the driving laser's linewidth under weak excitation. These properties are commonly explained disjoinedly as the emitter's single photon saturation or passively scattering light, until a recent theory attributes anti-bunching to the laser-like spectrum's interference with the incoherently scattered light. However, the theory implies higher-order scattering processes, and led to an experiment purporting to validate an atom's simultaneous scattering of two photons. If true, it could complicate RF's prospects in quantum information applications. Here, we propose a unified model that treats all RF photons as spontaneous emission, one at a time, and can explain simultaneously both the RF's spectral and correlation properties. We theoretically derive the excitation power dependencies, with the strongest effects measurable at the single-photon incidence level, of the first-order coherence of the whole RF and super-bunching of the spectrally filtered, followed by experimental confirmation on a semiconductor quantum dot micro-pillar device. Furthermore, our model explains peculiar coincidence bunching observed in phase-dependent two-photon interference experiments. Our work provides novel understandings of coherent light-matter interaction and may stimulate new applications.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# 読み物はすべてを信じてはいけない:大規模言語モデルにおける幻覚の自動識別による要約解釈の強化

Don't Believe Everything You Read: Enhancing Summarization Interpretability through Automatic Identification of Hallucinations in Large Language Models ( http://arxiv.org/abs/2312.14346v2 )

ライセンス: Link先を確認
Priyesh Vakharia, Devavrat Joshi, Meenal Chavan, Dhananjay Sonawane, Bhrigu Garg, Parsa Mazaheri, (参考訳) 大規模言語モデル(LLM)は、機械翻訳やテキスト要約といったタスクのテキスト操作に適しています。 しかし、これらのモデルは幻覚を引き起こす傾向があり、それはモデルが提供する答えの忠実さを損なう可能性がある。 LLMにおける幻覚との戦いの最近の研究は、幻覚文の識別と、モデルが幻覚化する様々な方法の分類に対処している。 本稿では,幻覚に対する LLM の振る舞いを深く掘り下げ,異なる種類の幻覚を識別するためのトークンレベルのアプローチを定義し,さらに,このトークンレベルのタグ付けを用いて,対話要約タスクにおける LLM の解釈性と忠実性を改善する。 そこで本研究では,新たな拡張データセットと新たなトレーニングパラダイムを提案する。

Large Language Models (LLMs) are adept at text manipulation -- tasks such as machine translation and text summarization. However, these models can also be prone to hallucination, which can be detrimental to the faithfulness of any answers that the model provides. Recent works in combating hallucinations in LLMs deal with identifying hallucinated sentences and categorizing the different ways in which models hallucinate. This paper takes a deep dive into LLM behavior with respect to hallucinations, defines a token-level approach to identifying different kinds of hallucinations, and further utilizes this token-level tagging to improve the interpretability and faithfulness of LLMs in dialogue summarization tasks. Through this, the paper presents a new, enhanced dataset and a new training paradigm.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# 3つの頭は1より優れている:長期学習のための補完的専門家

Three Heads Are Better Than One: Complementary Experts for Long-Tailed Semi-supervised Learning ( http://arxiv.org/abs/2312.15702v2 )

ライセンス: Link先を確認
Chengcheng Ma, Ismail Elezi, Jiankang Deng, Weiming Dong, Changsheng Xu, (参考訳) 本稿では,Long-Tailed Semi-Supervised Learning (LTSSL) の課題に対処する。 バランスの取れたSSLとは異なり、生成された擬似ラベルはヘッドクラスにスキューされ、トレーニングバイアスが強化される。 このような現象は、ラベル付きデータセットとラベルなしデータセットのクラス分布が一致していない場合に、ラベルなしデータがヘッドクラスとして誤ってラベル付けされるため、増幅される。 そこで本研究では,ComPlementary Experts (CPE) という新しい手法を提案する。 具体的には、複数の専門家に様々なクラス分布をモデル化するよう訓練し、それぞれが高品質な擬似ラベルを1つの形態で生成する。 さらに,頭部クラスと非頭部クラス間の特徴分布ミスマッチによる性能劣化を回避するために,CPEのクラスワイドバッチ正規化を導入する。 CPEは、CIFAR-10-LT、CIFAR-100-LT、STL-10-LTのベンチマークで最先端のパフォーマンスを達成する。 例えば、CIFAR-10-LTでは、CPEはベースラインに比べてテスト精度を2.22%以上改善している。 コードはhttps://github.com/machengcheng2016/CPE-LTSSLで公開されている。

We address the challenging problem of Long-Tailed Semi-Supervised Learning (LTSSL) where labeled data exhibit imbalanced class distribution and unlabeled data follow an unknown distribution. Unlike in balanced SSL, the generated pseudo-labels are skewed towards head classes, intensifying the training bias. Such a phenomenon is even amplified as more unlabeled data will be mislabeled as head classes when the class distribution of labeled and unlabeled datasets are mismatched. To solve this problem, we propose a novel method named ComPlementary Experts (CPE). Specifically, we train multiple experts to model various class distributions, each of them yielding high-quality pseudo-labels within one form of class distribution. Besides, we introduce Classwise Batch Normalization for CPE to avoid performance degradation caused by feature distribution mismatch between head and non-head classes. CPE achieves state-of-the-art performances on CIFAR-10-LT, CIFAR-100-LT, and STL-10-LT dataset benchmarks. For instance, on CIFAR-10-LT, CPE improves test accuracy by over 2.22% compared to baselines. Code is available at https://github.com/machengcheng2016/CPE-LTSSL.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# LeanVec: ベクターを適合させることで、ベクターの検索を高速化する

LeanVec: Searching vectors faster by making them fit ( http://arxiv.org/abs/2312.16335v2 )

ライセンス: Link先を確認
Mariano Tepper, Ishwar Singh Bhati, Cecilia Aguerrebere, Mark Hildebrand, Ted Willke, (参考訳) 現代のディープラーニングモデルは、セマンティックな類似性を反映した高次元ベクトルを生成する能力を持つ。 このように、類似性探索、すなわち、与えられたクエリに類似した大規模なコレクションでこれらのベクトルを検索する操作は、高度に正確かつタイムリーな回答を要求する幅広いアプリケーションにおいて重要な要素となっている。 この設定では、ベクトル次元が高いと類似性探索系を計算とメモリの圧力下に置くため、サブパー性能が低下する。 さらに、クロスモーダル検索タスクは、ユーザがテキストクエリを入力して、そのクエリの最も関連性の高い画像を見つけるなど、ますます一般的になっています。 しかし、これらのクエリはデータベースの埋め込みとは異なる分布を持つことが多く、高い精度を達成することは困難である。 本稿では,高次元ベクトル上での類似性探索を高速化し,精度を維持しつつ,線形次元減少とベクトル量子化を組み合わせたフレームワークであるLeanVecを提案する。 本稿では,in-distribution (ID) およびout-of-distribution (OOD) クエリに対する LeanVec 変種について述べる。 LeanVec-IDは、最近導入されたディープラーニングの代替品と同等の精度を得る。 LeanVec-OODは、クエリとデータベースの分布を考慮した2つの新しい手法を使用して、フレームワークの精度と性能をさらに向上させる(クエリとデータベースの分布が一致した場合の競合結果を示す)。 全体として、広範囲で多様な実験結果から、LeanVecは最先端の結果を生成し、検索スループットを最大3.7倍改善し、最先端よりも4.9倍高速なインデックスビルドを実現した。

Modern deep learning models have the ability to generate high-dimensional vectors whose similarity reflects semantic resemblance. Thus, similarity search, i.e., the operation of retrieving those vectors in a large collection that are similar to a given query, has become a critical component of a wide range of applications that demand highly accurate and timely answers. In this setting, the high vector dimensionality puts similarity search systems under compute and memory pressure, leading to subpar performance. Additionally, cross-modal retrieval tasks have become increasingly common, e.g., where a user inputs a text query to find the most relevant images for that query. However, these queries often have different distributions than the database embeddings, making it challenging to achieve high accuracy. In this work, we present LeanVec, a framework that combines linear dimensionality reduction with vector quantization to accelerate similarity search on high-dimensional vectors while maintaining accuracy. We present LeanVec variants for in-distribution (ID) and out-of-distribution (OOD) queries. LeanVec-ID yields accuracies on par with those from recently introduced deep learning alternatives whose computational overhead precludes their usage in practice. LeanVec-OOD uses two novel techniques for dimensionality reduction that consider the query and database distributions to simultaneously boost the accuracy and the performance of the framework even further (even presenting competitive results when the query and database distributions match). All in all, our extensive and varied experimental results show that LeanVec produces state-of-the-art results, with up to 3.7x improvement in search throughput and up to 4.9x faster index build time over the state of the art.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# LLMトレーニングにおける構造化パッケージングによる長期利用の改善

Structured Packing in LLM Training Improves Long Context Utilization ( http://arxiv.org/abs/2312.17296v4 )

ライセンス: Link先を確認
Konrad Staniszewski, Szymon Tworkowski, Yu Zhao, Sebastian Jaszczur, Henryk Michalewski, Łukasz Kuciński, Piotr Miłoś, (参考訳) 近年の長文大言語モデルの発展は注目されている。 しかし、それらの現実世界のアプリケーションは、しばしば非効率的な文脈情報の使用によって妨げられる。 この研究は、意味的相互依存を高めるためのトレーニングデータの構造化が、文脈利用の最適化に有効な戦略であることを示している。 この目的のために、情報検索手法を用いて、相互に関連のある文書を単一のトレーニングコンテキストに照合することで、トレーニング例を作成する方法であるStructured Packing for Long Context (SPLiCe)を紹介した。 我々はSPLiCeを大規模な3$Bと7$Bのモデルで実証的に検証し、より複雑な改善と下流タスクにおける長期使用率の向上を示す。 注目すべきは、SPLiCeでの比較的短い微調整は、これらのメリットを達成するのに十分であるということだ。 さらに、SPLiCeの包括的な研究により、コードデータのトレーニングなどの興味深い転送効果が、テキストデータの難易度改善につながっていることが明らかになった。

Recent developments in long-context large language models have attracted considerable attention. Yet, their real-world applications are often hindered by ineffective context information use. This work shows that structuring training data to increase semantic interdependence is an effective strategy for optimizing context utilization. To this end, we introduce Structured Packing for Long Context (SPLiCe), a method for creating training examples by using information retrieval methods to collate mutually relevant documents into a single training context. We empirically validate SPLiCe on large $3$B and $7$B models, showing perplexity improvements and better long-context utilization on downstream tasks. Remarkably, already relatively short fine-tuning with SPLiCe is enough to attain these benefits. Additionally, the comprehensive study of SPLiCe reveals intriguing transfer effects such as training on code data leading to perplexity improvements on text data.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# 生成的敵ネットワークによるAnte-Hoc説明可能なモデルの改善

Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks ( http://arxiv.org/abs/2401.04647v2 )

ライセンス: Link先を確認
Tanmay Garg, Deepika Vemuri, Vineeth N Balasubramanian, (参考訳) 本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。 本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。 トレーニング中、説明モジュールは分類器の潜在表現から視覚概念を抽出するために最適化され、GANベースのモジュールは概念から生成されたイメージを真のイメージから識別することを目的としている。 この共同トレーニングスキームにより、モデルは内部で学んだ概念を人間の解釈可能な視覚特性と暗黙的に整合させることができる。 包括的実験は、コヒーレントな概念アクティベーションを生み出しながら、我々のアプローチの堅牢性を実証する。 学習した概念を解析し、対象部分と視覚的属性とのセマンティックな一致を示す。 また,逆行訓練プロトコルの摂動が,分類と概念獲得の両方に与える影響についても検討した。 要約すると、この研究は、タスク整合の概念表現によって本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示します。

This paper presents a novel concept learning framework for enhancing model interpretability and performance in visual classification tasks. Our approach appends an unsupervised explanation generator to the primary classifier network and makes use of adversarial training. During training, the explanation module is optimized to extract visual concepts from the classifier's latent representations, while the GAN-based module aims to discriminate images generated from concepts, from true images. This joint training scheme enables the model to implicitly align its internally learned concepts with human-interpretable visual properties. Comprehensive experiments demonstrate the robustness of our approach, while producing coherent concept activations. We analyse the learned concepts, showing their semantic concordance with object parts and visual attributes. We also study how perturbations in the adversarial training protocol impact both classification and concept acquisition. In summary, this work presents a significant step towards building inherently interpretable deep vision models with task-aligned concept representations - a key enabler for developing trustworthy AI for real-world perception tasks.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# 医学的視覚的質問応答における幻覚のベンチマーク

Hallucination Benchmark in Medical Visual Question Answering ( http://arxiv.org/abs/2401.05827v2 )

ライセンス: Link先を確認
Jinge Wu, Yunsoo Kim, Honghan Wu, (参考訳) 視覚質問応答(VQA)における大規模言語と視覚モデル(LLVM)の成功、特に医学的応用(Med-VQA)は、医療に有効な視覚アシスタントを実現する大きな可能性を示している。 しかし、これらのモデルは、臨床環境での幻覚現象に対して広範囲に検査されない。 そこで我々は,質問応答セットと組み合わせた医用画像の幻覚ベンチマークを作成し,最先端モデルの総合的な評価を行った。 この研究は、現在のモデルの限界を詳細に分析し、様々なプロンプト戦略の有効性を明らかにする。

The recent success of large language and vision models (LLVMs) on vision question answering (VQA), particularly their applications in medicine (Med-VQA), has shown a great potential of realizing effective visual assistants for healthcare. However, these models are not extensively tested on the hallucination phenomenon in clinical settings. Here, we created a hallucination benchmark of medical images paired with question-answer sets and conducted a comprehensive evaluation of the state-of-the-art models. The study provides an in-depth analysis of current models' limitations and reveals the effectiveness of various prompting strategies.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# 非クリフォードゲートにおけるコヒーレントエラーの擬似緩和

Pseudo Twirling Mitigation of Coherent Errors in non-Clifford Gates ( http://arxiv.org/abs/2401.09040v2 )

ライセンス: Link先を確認
Jader P. Santos, Ben Bar, Raam Uzdin, (参考訳) 任意の量子回路を構成するために限られた数のゲートを利用する従来の回路パラダイムは、大きなノイズオーバーヘッドによって妨げられている。 例えば、標準ゲートパラダイムでは、回転角が非常に小さい場合でも、量子フーリエ変換における部分CPhase回転に2つのCNOTゲートを用いる。 対照的に、いくつかの量子コンピュータプラットフォームは、ネイティブな相互作用を使って、そのような操作を直接実装することができ、結果として、小さな回転角に対するかなり短く、よりノイズの少ない実装が得られる。 残念ながら、qubitクロストークとキャリブレーションの不完全性に起因するコヒーレントエラーは、これらの実装を実用的でないものにする。 CNOT のようなクリフォードゲートでは、これらの誤りは Pauli twirling (ランダム化コンパイルとも呼ばれる) を通して対処することができる。 しかし、この手法は上記のような非クリフォードネイティブ実装には適用できない。 本研究は,一般ゲートや回路のコヒーレントなエラーに対処する手法であるPseudo Twirlingを紹介し,解析し,実験的に実証する。 さらに, 擬似ツイリングと 'Adaptive KIK' という量子誤差緩和法を組み合わせることで, 非クリフォードゲートにおけるノイズとコヒーレント誤差の同時緩和が可能であることを実験的に示す。 ユニークな特徴のため、偽のツイリングは現在の NISQ デバイスと将来の NISQ デバイスの能力を高める上で貴重な資産となる可能性がある。

The conventional circuit paradigm, utilizing a limited number of gates to construct arbitrary quantum circuits, is hindered by significant noise overhead. For instance, the standard gate paradigm employs two CNOT gates for the partial CPhase rotation in the quantum Fourier transform, even when the rotation angle is very small. In contrast, some quantum computer platforms can directly implement such operations using their native interaction, resulting in considerably shorter and less noisy implementations for small rotation angles. Unfortunately, coherent errors stemming from qubit crosstalk and calibration imperfections render these implementations impractical. In Clifford gates such as the CNOT, these errors can be addressed through Pauli twirling (also known as randomized compiling). However, this technique is not applicable to the non-Clifford native implementations described above. The present work introduces, analyzes, and experimentally demonstrates a technique called `Pseudo Twirling' to address coherent errors in general gates and circuits. Additionally, we experimentally showcase that integrating pseudo twirling with a quantum error mitigation method called `Adaptive KIK' enables the simultaneous mitigation of both noise and coherent errors in non-Clifford gates. Due to its unique features pseudo twirling could become a valuable asset in enhancing the capabilities of both present and future NISQ devices.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# テキスト認証の解読:人間対機械生成テキスト検出のための大言語セマンティクスのレンズによる一般化戦略

Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text ( http://arxiv.org/abs/2401.09407v3 )

ライセンス: Link先を確認
Mazal Bethany, Brandon Wherry, Emet Bethany, Nishant Vishwamitra, Anthony Rios, Peyman Najafirad, (参考訳) 近年のLarge Language Models (LLM)の普及に伴い、機械生成テキストを検出するツールの需要が高まっている。 まず、機械生成テキストはGPT-4やDollyに限らず、さまざまなジェネレータによって生成され、学術写本からソーシャルメディアポストまで多様な領域にまたがる。 第二に、既存の検出手法は、LLMが生成するテキストを制限されたバイナリ分類レンズで処理し、異なるLLMが生成するアーティファクトの微妙な多様性を無視している。 本研究では,実世界のシナリオにおける機械生成テキストの検出に関する系統的研究を行う。 まず、最先端のアプローチの有効性について検討し、実世界の多様なジェネレータやドメインが生成するテキストに対して著しく制限されていることを発見した。 さらに、事前訓練されたLLMエンコーダからの埋め込みのt-SNE可視化は、人間と機械生成したテキストを確実に区別できないことを示す。 そこで本研究では,実世界の多種多様なジェネレータやドメインが生成するテキストに対応するために,LLMと組込みサブクラスタリングを組み合わせた事前学習されたT5エンコーダを用いた機械生成テキスト検出システムT5LLMCipherを提案する。 提案手法は,9つの機械生成テキストシステムと9つのドメインにまたがるアプローチを評価し,機械生成テキストに対するF1スコアの平均値が19.6\%増加し,93.6\%の精度でテキスト生成ジェネレータを正しく評価する。

With the recent proliferation of Large Language Models (LLMs), there has been an increasing demand for tools to detect machine-generated text. The effective detection of machine-generated text face two pertinent problems: First, they are severely limited in generalizing against real-world scenarios, where machine-generated text is produced by a variety of generators, including but not limited to GPT-4 and Dolly, and spans diverse domains, ranging from academic manuscripts to social media posts. Second, existing detection methodologies treat texts produced by LLMs through a restrictive binary classification lens, neglecting the nuanced diversity of artifacts generated by different LLMs. In this work, we undertake a systematic study on the detection of machine-generated text in real-world scenarios. We first study the effectiveness of state-of-the-art approaches and find that they are severely limited against text produced by diverse generators and domains in the real world. Furthermore, t-SNE visualizations of the embeddings from a pretrained LLM's encoder show that they cannot reliably distinguish between human and machine-generated text. Based on our findings, we introduce a novel system, T5LLMCipher, for detecting machine-generated text using a pretrained T5 encoder combined with LLM embedding sub-clustering to address the text produced by diverse generators and domains in the real world. We evaluate our approach across 9 machine-generated text systems and 9 domains and find that our approach provides state-of-the-art generalization ability, with an average increase in F1 score on machine-generated text of 19.6\% on unseen generators and domains compared to the top performing existing approaches and correctly attributes the generator of text with an accuracy of 93.6\%.
翻訳日:2024-04-04 22:27:34 公開日:2024-04-03
# FAIR Enough: 大規模言語モデルのトレーニングにFAIR互換のデータセットをどのように開発し評価するか?

FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training? ( http://arxiv.org/abs/2401.11033v4 )

ライセンス: Link先を確認
Shaina Raza, Shardul Ghuge, Chen Ding, Elham Dolatabadi, Deval Pandya, (参考訳) 大規模言語モデル(LLM)の急速な進化は、AI開発における倫理的考慮とデータの完全性の必要性を強調し、特にFAIR(Findable, Accessible, Interoperable, Reusable)データ原則の役割を強調している。 これらの原則は倫理データのスチュワードシップに欠かせないものであるが、LLMトレーニングデータの文脈におけるそれらの特定の応用は未調査領域のままである。 この研究ギャップは本研究の焦点であり,LLMトレーニングにおけるデータ管理におけるFAIR原則の重要性を明らかにするために,既存の文献を考察することから始まる。 そこで我々は,FAIR の原則を LLM 開発ライフサイクルに組み込むための新しいフレームワークを提案する。 私たちの研究の貢献は、研究者や開発者がモデル開発プロセス全体にわたって一貫してFAIRデータ原則を適用するための包括的なチェックリストの開発です。 LLMにおけるバイアスの検出と緩和を目的としたFAIR準拠のデータセットを作成するためのケーススタディを通じて,本フレームワークの有用性と有効性を検証する。 我々は、技術的に先進的で倫理的に基礎があり、社会的に責任を持つAIモデルの作成を促進するツールとして、この枠組みをコミュニティに提示する。

The rapid evolution of Large Language Models (LLMs) highlights the necessity for ethical considerations and data integrity in AI development, particularly emphasizing the role of FAIR (Findable, Accessible, Interoperable, Reusable) data principles. While these principles are crucial for ethical data stewardship, their specific application in the context of LLM training data remains an under-explored area. This research gap is the focus of our study, which begins with an examination of existing literature to underline the importance of FAIR principles in managing data for LLM training. Building upon this, we propose a novel framework designed to integrate FAIR principles into the LLM development lifecycle. A contribution of our work is the development of a comprehensive checklist intended to guide researchers and developers in applying FAIR data principles consistently across the model development process. The utility and effectiveness of our framework are validated through a case study on creating a FAIR-compliant dataset aimed at detecting and mitigating biases in LLMs. We present this framework to the community as a tool to foster the creation of technologically advanced, ethically grounded, and socially responsible AI models.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# 大規模言語モデルのインストラクショナルフィンガープリント

Instructional Fingerprinting of Large Language Models ( http://arxiv.org/abs/2401.12255v2 )

ライセンス: Link先を確認
Jiashu Xu, Fei Wang, Mingyu Derek Ma, Pang Wei Koh, Chaowei Xiao, Muhao Chen, (参考訳) 大規模言語モデル(LLM)をスクラッチからトレーニングする余分なコストは、オーナーシップ認証を通じて知的財産を保護するためにモデルをフィンガープリントし、下流のユーザや開発者がライセンス条件に準拠すること(商用使用を制限することなど)が不可欠である。 本研究では,LLMフィンガープリントを非常に軽量なインストラクションチューニングの一形態として提案する。 モデルパブリッシャは秘密の秘密鍵を指定し、それを命令バックドアとして埋め込む。 11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。 また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。 コードはhttps://cnut1648.github.io/Model-Fingerprint/で入手できる。

The exorbitant cost of training Large language models (LLMs) from scratch makes it essential to fingerprint the models to protect intellectual property via ownership authentication and to ensure downstream users and developers comply with their license terms (e.g. restricting commercial use). In this study, we present a pilot study on LLM fingerprinting as a form of very lightweight instruction tuning. Model publisher specifies a confidential private key and implants it as an instruction backdoor that causes the LLM to generate specific text when the key is present. Results on 11 popularly-used LLMs showed that this approach is lightweight and does not affect the normal behavior of the model. It also prevents publisher overclaim, maintains robustness against fingerprint guessing and parameter-efficient training, and supports multi-stage fingerprinting akin to MIT License. Code is available in https://cnut1648.github.io/Model-Fingerprint/.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# MLLMReID:マルチモーダル大言語モデルに基づく人物再識別

MLLMReID: Multimodal Large Language Model-based Person Re-identification ( http://arxiv.org/abs/2401.13201v2 )

ライセンス: Link先を確認
Shan Yang, Yongfei Zhang, (参考訳) MLLM(Multimodal large language model)は多くのタスクにおいて満足な結果を得た。 しかし, ReID (person re-identification, person re-identification, ReID) の課題における業績は, これまでに調査されていない。 本稿では,ReIDの課題に適合させる方法について検討する。 直感的なアイデアは、ReIDイメージテキストデータセットでMLLMを微調整し、それらのビジュアルエンコーダをReIDのバックボーンとして使用することである。 しかし、(1) ReID の命令の設計、MLLM は特定の命令に過度に適合する可能性があること、そして、様々な命令を設計することがコストの上昇につながること、の2つの明らかな問題がまだ残っている。 2) LLM の遅延像特徴ベクトルは損失計算には関与しない。 インストラクショナルラーニング,画像テキストの特徴の整合,間接的最適化の結果として,特徴を不十分に活用する学習目標が達成され,人的特徴学習の有効性が制限される。 本稿では,MLLMReID: Multimodal Large Language Model-based ReIDを提案する。 まず,LLMの本質的能力を活用するシンプルな手法であるCommon Instructionを提案し,複雑で多様な命令設計を避ける。 第二に、ReIDタスクにおいてLLMによって出力される画像の潜在画像特徴ベクトルを効果的に活用するDirectReIDを提案する。 実験により,本手法の優位性を実証した。 コードをGitHubでオープンソースにします。

Multimodal large language models (MLLM) have achieved satisfactory results in many tasks. However, their performance in the task of person re-identification (ReID) has not been explored to date. This paper will investigate how to adapt them for the task of ReID. An intuitive idea is to fine-tune MLLM with ReID image-text datasets, and then use their visual encoder as a backbone for ReID. However, there still exist two apparent issues: (1) Designing instructions for ReID, MLLMs may overfit specific instructions, and designing a variety of instructions will lead to higher costs. (2) Latent image feature vectors from LLMs are not involved in loss computation. Instructional learning, aligning image-text features, results in indirect optimization and a learning objective that inadequately utilizes features, limiting effectiveness in person feature learning. To address these problems, this paper proposes MLLMReID: Multimodal Large Language Model-based ReID. Firstly, we proposed Common Instruction, a simple approach that leverages the essence ability of LLMs to continue writing, avoiding complex and diverse instruction design. Secondly, we proposed DirectReID, which effectively employs the latent image feature vectors of images outputted by LLMs in ReID tasks. The experimental results demonstrate the superiority of our method. We will open-source the code on GitHub.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# MALA-500:大規模言語モデルの大規模言語適応

MaLA-500: Massive Language Adaptation of Large Language Models ( http://arxiv.org/abs/2401.13303v2 )

ライセンス: Link先を確認
Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze, (参考訳) 大規模言語モデル (LLM) は、自然言語処理の最先端技術である。 しかし、彼らの英語や限られた言語に対する主要な設計は、低リソース言語に対するその効果にかなりのギャップを生じさせる。 このギャップを埋めるため,幅広い534言語をカバーするように設計された新しい大規模言語モデルであるMALA-500を導入する。 MLA-500のトレーニングには語彙拡張とLLaMA 2でのGlot500-cのトレーニングを継続する。 我々の本質的な評価は,MALA-500 が既存の多言語 LLM よりも低リソース言語のテキストの予測に優れていることを示している。 さらに、文脈内学習の本質的な評価から、MALA-500はSIB200とTaxi1500の従来のLLMよりも11.68%と4.82%のマーコ平均精度で優れていた。 https://huggingface.co/MaLA-LMでMALA-500をリリースします。

Large language models (LLMs) have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our intrinsic evaluation demonstrates that MaLA-500 is better at predicting the given texts of low-resource languages than existing multilingual LLMs. Moreover, the extrinsic evaluation of in-context learning shows that MaLA-500 outperforms previous LLMs on SIB200 and Taxi1500 by a significant margin, i.e., 11.68% and 4.82% marco-average accuracy across languages. We release MaLA-500 at https://huggingface.co/MaLA-LM
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# 優れたものへのスケーリング:野生のフォトリアリスティック画像復元のためのモデルスケーリングの実践

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild ( http://arxiv.org/abs/2401.13627v2 )

ライセンス: Link先を確認
Fanghua Yu, Jinjin Gu, Zheyuan Li, Jinfan Hu, Xiangtao Kong, Xintao Wang, Jingwen He, Yu Qiao, Chao Dong, (参考訳) 本稿では,生成前処理とモデルスケールアップのパワーを活かした画期的な画像復元手法であるSUPIR(Scaling-UP Image Restoration)を紹介する。 SUPIRはマルチモーダル技術と先進的な生成技術を応用し、インテリジェントで現実的な画像復元において大きな進歩を遂げた。 SUPIR内の重要な触媒として、モデルスケーリングはその能力を劇的に向上させ、画像復元の新しい可能性を示す。 モデルトレーニングのための2000万の高解像度高画質画像からなるデータセットを収集し、それぞれに記述的テキストアノテーションを付加する。 SUPIRは、テキストプロンプトでガイドされたイメージを復元する機能を提供し、アプリケーションの範囲と可能性を広げる。 さらに、知覚品質をさらに改善するために、ネガティブ品質プロンプトを導入します。 また, 再生型修復における忠実度問題を抑制するために, 修復誘導サンプリング法を開発した。 実験では、SUPIRの異常な修復効果と、テキストのプロンプトによって復元を操作する新しい能力を示す。

We introduce SUPIR (Scaling-UP Image Restoration), a groundbreaking image restoration method that harnesses generative prior and the power of model scaling up. Leveraging multi-modal techniques and advanced generative prior, SUPIR marks a significant advance in intelligent and realistic image restoration. As a pivotal catalyst within SUPIR, model scaling dramatically enhances its capabilities and demonstrates new potential for image restoration. We collect a dataset comprising 20 million high-resolution, high-quality images for model training, each enriched with descriptive text annotations. SUPIR provides the capability to restore images guided by textual prompts, broadening its application scope and potential. Moreover, we introduce negative-quality prompts to further improve perceptual quality. We also develop a restoration-guided sampling method to suppress the fidelity issue encountered in generative-based restoration. Experiments demonstrate SUPIR's exceptional restoration effects and its novel capacity to manipulate restoration through textual prompts.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# MambaByte: Token-free Selective State Space Model

MambaByte: Token-free Selective State Space Model ( http://arxiv.org/abs/2401.13660v2 )

ライセンス: Link先を確認
Junxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M. Rush, (参考訳) トークンフリー言語モデルは、生のバイトから直接学習し、サブワードトークン化の帰納バイアスを取り除く。 しかしバイトを操作すると、配列が大幅に長くなる。 この設定では、必要な有効メモリがシーケンス長とともに増加するにつれて、標準の自己回帰変換器はスケールが悪くなる。 最近開発されたMamba状態空間モデル(SSM)は、固定サイズのメモリ状態と効率的なデコードを備えた魅力的な代替手法を提供する。 本稿では,バイトシーケンスに基づいて自己回帰的にトレーニングされたMamba SSMのトークンフリー適応であるMambaByteを提案する。 モデリングの面では、MambaByteは、堅牢性やノイズといったトークンフリーな言語モデルの利点を維持しつつ、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れ、さらに優れています。 効率の面では、トークン化された起草とバイトレベルの検証による投機的復号化の適応を開発する。 これにより、標準のMambaByte実装に対する$2.6\times$推論が高速化され、サブワードのMambaと同様の復号効率が示された。 これらの結果から,トークンフリー言語モデリングにおけるSSMの実現可能性が確認された。

Token-free language models learn directly from raw bytes and remove the inductive bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences. In this setting, standard autoregressive Transformers scale poorly as the effective memory required grows with sequence length. The recent development of the Mamba state space model (SSM) offers an appealing alternative approach with a fixed-sized memory state and efficient decoding. We propose MambaByte, a token-free adaptation of the Mamba SSM trained autoregressively on byte sequences. In terms of modeling, we show MambaByte to be competitive with, and even to outperform, state-of-the-art subword Transformers on language modeling tasks while maintaining the benefits of token-free language models, such as robustness to noise. In terms of efficiency, we develop an adaptation of speculative decoding with tokenized drafting and byte-level verification. This results in a $2.6\times$ inference speedup to the standard MambaByte implementation, showing similar decoding efficiency as the subword Mamba. These findings establish the viability of SSMs in enabling token-free language modeling.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# 検索型大規模言語モデルによる検索・自己回帰による医療推論の改善

Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2401.15269v2 )

ライセンス: Link先を確認
Minbyul Jeong, Jiwoong Sohn, Mujeen Sung, Jaewoo Kang, (参考訳) GPT-4のような最近のプロプライエタリな大規模言語モデル(LLM)は、多項目質問から長文世代まで、バイオメディカル領域における多様な課題に対処するマイルストーンを達成している。 LLMの符号化された知識でまだ処理できない課題に対処するために、知識コーパスから文書を検索し、LLMの入力に無条件または選択的に付加することにより、様々な検索拡張生成法(RAG)が開発されている。 しかし、既存の手法を異なるドメイン固有の問題に適用すると、一般化の貧弱さが明らかになり、不正な文書の取得や不正確な判断につながる。 本稿では, 説明文の生成, ドメイン固有文書の検索, 生成した応答の自己再生を専門とする, バイオメディカルテキストに信頼性のあるフレームワークであるSelf-BioRAGを紹介する。 84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。 本研究は,レトリバーやドメイン関連文書コーパス,命令セットなどのドメイン固有のコンポーネントが,ドメイン関連命令の付着に必要であることを示す。 3つの主要な医療質問答えベンチマークデータセットを用いて、Self-BioRAGの実験結果は、7B以下のパラメータサイズを持つ最先端のオープンバウンダレーションモデルに対して平均で7.2%の絶対的な改善を達成し、大きなパフォーマンス向上を示した。 全体として、Self-BioRAGは質問の手がかりを見つけ、必要なら関連文書を検索し、検索した文書から情報に答える方法を理解し、医療専門家としての知識を符号化する。 バイオメディカルおよび臨床領域の能力を高めるために、フレームワークコンポーネントとモデルウェイト(7Bと13B)をトレーニングするためのデータとコードをリリースする。

Recent proprietary large language models (LLMs), such as GPT-4, have achieved a milestone in tackling diverse challenges in the biomedical domain, ranging from multiple-choice questions to long-form generations. To address challenges that still cannot be handled with the encoded knowledge of LLMs, various retrieval-augmented generation (RAG) methods have been developed by searching documents from the knowledge corpus and appending them unconditionally or selectively to the input of LLMs for generation. However, when applying existing methods to different domain-specific problems, poor generalization becomes apparent, leading to fetching incorrect documents or making inaccurate judgments. In this paper, we introduce Self-BioRAG, a framework reliable for biomedical text that specializes in generating explanations, retrieving domain-specific documents, and self-reflecting generated responses. We utilize 84k filtered biomedical instruction sets to train Self-BioRAG that can assess its generated explanations with customized reflective tokens. Our work proves that domain-specific components, such as a retriever, domain-related document corpus, and instruction sets are necessary for adhering to domain-related instructions. Using three major medical question-answering benchmark datasets, experimental results of Self-BioRAG demonstrate significant performance gains by achieving a 7.2% absolute improvement on average over the state-of-the-art open-foundation model with a parameter size of 7B or less. Overall, we analyze that Self-BioRAG finds the clues in the question, retrieves relevant documents if needed, and understands how to answer with information from retrieved documents and encoded knowledge as a medical expert does. We release our data and code for training our framework components and model weights (7B and 13B) to enhance capabilities in biomedical and clinical domains.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# Comuniqa : 話し方を改善するための大規模言語モデルの検討

Comuniqa : Exploring Large Language Models for improving speaking skills ( http://arxiv.org/abs/2401.15595v2 )

ライセンス: Link先を確認
Manas Mhasakar, Shikhar Sharma, Apurv Mehra, Utkarsh Venaik, Ujjwal Singhal, Dhruv Kumar, Kashish Mittal, (参考訳) 本稿では,Large Language Models (LLMs) の英語能力向上の可能性について検討する。 これは特に、英語が学術的、専門的、個人的コミュニケーションに不可欠であるが、多くの人にとっては非ネイティブ言語であるインドのような国に関係している。 従来の話し方のスキル向上方法は、スケーラビリティ、アクセシビリティ、手頃な価格の点で制限されるような、人間の専門家に頼っていることが多い。 人工知能(AI)の最近の進歩は、これらの制限を克服する有望なソリューションを提供する。 我々は,英語のスキル向上を目的とした,新しいLLMベースのシステムであるComuniqaを提案する。 我々は、Comuniqaと人間の専門家のフィードバックと指示を比較して、人間中心の評価アプローチを採用する。 本評価では,3つのグループに分けて,LLMをベースとした発話能力向上のためのシステム,同じ課題のために人間専門家が指導するシステム,LLMをベースとしたシステムと人間専門家の両方を利用するシステム,の3つを分けた。 調査,インタビュー,および実際の研究セッションを用いて,異なる学習モダリティの有効性について,より詳細な視点を提供する。 予備的な知見は, LLMに基づくシステムでは, 精度と共感の両面において, 人間のレベルの認知能力が欠如していることを示唆している。 それにもかかわらず、Comuniqaは持続可能な開発目標の達成に向けて重要な一歩を踏み出した。

In this paper, we investigate the potential of Large Language Models (LLMs) to improve English speaking skills. This is particularly relevant in countries like India, where English is crucial for academic, professional, and personal communication but remains a non-native language for many. Traditional methods for enhancing speaking skills often rely on human experts, which can be limited in terms of scalability, accessibility, and affordability. Recent advancements in Artificial Intelligence (AI) offer promising solutions to overcome these limitations. We propose Comuniqa, a novel LLM-based system designed to enhance English speaking skills. We adopt a human-centric evaluation approach, comparing Comuniqa with the feedback and instructions provided by human experts. In our evaluation, we divide the participants in three groups: those who use LLM-based system for improving speaking skills, those guided by human experts for the same task and those who utilize both the LLM-based system as well as the human experts. Using surveys, interviews, and actual study sessions, we provide a detailed perspective on the effectiveness of different learning modalities. Our preliminary findings suggest that while LLM-based systems have commendable accuracy, they lack human-level cognitive capabilities, both in terms of accuracy and empathy. Nevertheless, Comuniqa represents a significant step towards achieving Sustainable Development Goal 4: Quality Education by providing a valuable learning tool for individuals who may not have access to human experts for improving their speaking skills.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# 時空間IoTデータセットにおけるユーザレベルプライバシによる平均推定

Mean Estimation with User-Level Privacy for Spatio-Temporal IoT Datasets ( http://arxiv.org/abs/2401.15906v6 )

ライセンス: Link先を確認
V. Arvind Rameshwar, Anshoo Tandon, Prajjwal Gupta, Aditya Vikram Singh, Novoneel Chakraborty, Abhay Sharma, (参考訳) 本稿では,交通データセットからの速度値のサンプル平均値のプライベートリリースの問題について考察する。 私たちの重要な貢献は、ユーザレベルの微分プライベートアルゴリズムの開発です。これは、慎重に選択されたパラメータ値を組み込んで、実際のデータセットの低い推定エラーを保証し、プライバシを確保します。 インドシティのITMS(Intelligent Traffic Management System)データ上で,未知の分布から,異なるバスの速度が潜在的に非単位の方法で引き出される場合,また,異なるバスが提供した速度サンプルの数が異なる場合のアルゴリズムをテストする。 次に、ITMSデータに基づいて生成された大規模な合成データセットにアルゴリズムを適用する。 ここでは,観測された性能傾向の理論的正当性と,推定誤差の低いアルゴリズムサブルーチンの選択を推奨する。 最後に, 擬似ユーザ生成に基づくアルゴリズムの性能を, ミニマックスアプローチにより評価し, 擬似ユーザ生成のための新しい手順を考案し, 最悪ケースの総推定誤差を最適化する。 論文で論じているアルゴリズムは、一般的な時空間IoTデータセットに容易に適用でき、所望値の微分プライベート平均を解放することができる。

This paper considers the problem of the private release of sample means of speed values from traffic datasets. Our key contribution is the development of user-level differentially private algorithms that incorporate carefully chosen parameter values to ensure low estimation errors on real-world datasets, while ensuring privacy. We test our algorithms on ITMS (Intelligent Traffic Management System) data from an Indian city, where the speeds of different buses are drawn in a potentially non-i.i.d. manner from an unknown distribution, and where the number of speed samples contributed by different buses is potentially different. We then apply our algorithms to large synthetic datasets, generated based on the ITMS data. Here, we provide theoretical justification for the observed performance trends, and also provide recommendations for the choices of algorithm subroutines that result in low estimation errors. Finally, we characterize the best performance of pseudo-user creation-based algorithms on worst-case datasets via a minimax approach; this then gives rise to a novel procedure for the creation of pseudo-users, which optimizes the worst-case total estimation error. The algorithms discussed in the paper are readily applicable to general spatio-temporal IoT datasets for releasing a differentially private mean of a desired value.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# 安全航空機分類のための滑走路物体分類器のロバスト性評価

Robustness Assessment of a Runway Object Classifier for Safe Aircraft Taxiing ( http://arxiv.org/abs/2402.00035v2 )

ライセンス: Link先を確認
Yizhak Elboher, Raya Elsaleh, Omri Isac, Mélanie Ducoffe, Audrey Galametz, Guillaume Povéda, Ryma Boumazouza, Noémie Cohen, Guy Katz, (参考訳) ディープニューラルネットワーク(DNN)が多くの計算問題の顕著な解決策になりつつあるため、航空業界は、パイロットの作業負荷を緩和し、運用上の安全性を向上させる可能性を探究しようとしている。 しかし、この種の安全クリティカルなアプリケーションにおけるDNNの使用には、徹底的な認証プロセスが必要である。 このニーズは形式的な検証によって対処できるため,厳格な保証 – 例えば - 特定の誤った予測がないことを証明して – が提供される。 本稿では,現在エアバスで開発中の画像分類装置DNNを用いて,航空機のタクシー走行時に使用することを意図した手法を実演する。 我々は、このDNNの頑健さを、ノイズ、明るさ、コントラストという3つの一般的なイメージ摂動タイプに評価するために、フォーマルな手法を用いています。 そこで本稿では,これらのロバスト性特性の単調性と過去の検証クエリの結果を利用して,検証クエリの総数を60%近く削減する手法を提案する。 以上の結果から,DNN分類器は輝度やコントラストの摂動よりも雑音に弱いことが示唆された。

As deep neural networks (DNNs) are becoming the prominent solution for many computational problems, the aviation industry seeks to explore their potential in alleviating pilot workload and in improving operational safety. However, the use of DNNs in this type of safety-critical applications requires a thorough certification process. This need can be addressed through formal verification, which provides rigorous assurances -- e.g.,~by proving the absence of certain mispredictions. In this case-study paper, we demonstrate this process using an image-classifier DNN currently under development at Airbus and intended for use during the aircraft taxiing phase. We use formal methods to assess this DNN's robustness to three common image perturbation types: noise, brightness and contrast, and some of their combinations. This process entails multiple invocations of the underlying verifier, which might be computationally expensive; and we therefore propose a method that leverages the monotonicity of these robustness properties, as well as the results of past verification queries, in order to reduce the overall number of verification queries required by nearly 60%. Our results provide an indication of the level of robustness achieved by the DNN classifier under study, and indicate that it is considerably more vulnerable to noise than to brightness or contrast perturbations.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# アンチデコヒーレンスを持つマックスウェルデーモン

Maxwell demon with anti-decoherence ( http://arxiv.org/abs/2402.01170v2 )

ライセンス: Link先を確認
Zi-Yan Zhang, Jian-Ying Du, Fu-Lin Zhang, (参考訳) 純粋な状態の複合システムのサブシステムは、一般的に混合状態に存在し、全体状態と変化を起こす。 この現象は系全体のコヒーレンスから生じ、量子系と古典系の決定的な区別を表している。 このような量子的性質は、2つの結合量子ビットが作用物質として機能するオットー熱エンジンの作業を強化することができ、負の作業出力が最初に発生した状況で正の作業が得られる。 我々は、マクスウェルの悪魔のイメージを利用して、このオットーサイクルにおける正の作用の理由を説明し、2つのサブシステムの相互測定の後、コヒーレンスの増加に起因する。 逆に、量子測定の効用サイクルは、測定過程における機器の非コヒーレンスに起因する負の作用を出力する。

Subsystems of a composite system in a pure state generally exist in mixed states and undergo changes with the overall state. This phenomenon arises from the coherence of the entire system and represents a crucial distinction between quantum and classical systems. Such a quantum property can enhance the work of an Otto heat engine, where two coupled qubits serve as the working substance, allowing situations in which negative work output initially occurred to now yield positive work. We utilize the imagery of Maxwell's demon to explain the reason for positive work in this Otto cycle, attributing it to the increased coherence after the mutual measurement of the two subsystems. Conversely, the quantum measurement-erase cycle typically outputs negative work, attributed to the decoherence of the instrument during the measurement process.
翻訳日:2024-04-04 22:17:46 公開日:2024-04-03
# 「何LLMを使おうか?」--大学院コンピュータサイエンスの学生が行う課題に対するLLMの評価

"Which LLM should I use?": Evaluating LLMs for tasks performed by Undergraduate Computer Science Students ( http://arxiv.org/abs/2402.01687v2 )

ライセンス: Link先を確認
Vibhor Agarwal, Madhav Krishan Garg, Sahiti Dharmavaram, Dhruv Kumar, (参考訳) 本研究は,大学生に共通する課題遂行における多種多様な大規模言語モデル(LLM)の有効性を評価するものである。 コンピュータ教育コミュニティにおける多くの研究は、様々なタスクにLLMを使用する可能性について検討してきたが、異なるLLMを比較し、どのLLMが様々なタスクに最も効果的であるかを評価する包括的な研究は乏しい。 Google Bard、ChatGPT(3.5)、GitHub Copilot Chat、Microsoft Copilotなど、インドの学部のコンピュータサイエンスの学生がよく遭遇するさまざまなタスクを体系的に評価する。 これらのタスクには、コード説明とドキュメント、クラス割り当ての解決、テクニカルインタビューの準備、新しい概念とフレームワークの学習、Eメールの書き込みが含まれる。 これらのタスクの評価は、最終年度と最終年度のコンピュータサイエンスの学生によって行われ、モデルの強みと限界についての洞察を提供する。 本研究の目的は,学習者や指導者が特定のタスクに適したLLMを選択することを指導することであり,学生やインストラクターがLLMをどのように構築的に利用できるかについての貴重な知見を提供することである。

This study evaluates the effectiveness of various large language models (LLMs) in performing tasks common among undergraduate computer science students. Although a number of research studies in the computing education community have explored the possibility of using LLMs for a variety of tasks, there is a lack of comprehensive research comparing different LLMs and evaluating which LLMs are most effective for different tasks. Our research systematically assesses some of the publicly available LLMs such as Google Bard, ChatGPT(3.5), GitHub Copilot Chat, and Microsoft Copilot across diverse tasks commonly encountered by undergraduate computer science students in India. These tasks include code explanation and documentation, solving class assignments, technical interview preparation, learning new concepts and frameworks, and email writing. Evaluation for these tasks was carried out by pre-final year and final year undergraduate computer science students and provides insights into the models' strengths and limitations. This study aims to guide students as well as instructors in selecting suitable LLMs for any specific task and offers valuable insights on how LLMs can be used constructively by students and instructors.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# FAIR-USE4OS: インパクトのあるオープンソースソフトウェアを作るためのガイドライン

FAIR-USE4OS: Guidelines for Creating Impactful Open-Source Software ( http://arxiv.org/abs/2402.02824v2 )

ライセンス: Link先を確認
Raphael Sonabend, Hugo Gruson, Leo Wolansky, Agnes Kiragga, Daniel S. Katz, (参考訳) 本稿では、FAIR(Findable, Accessible, Interoperable, Reusable)ガイドラインを拡張し、ソフトウェアがオープンソースにおけるベストプラクティスに準拠しているかどうかを評価するための基準を提供する。 USE(User-Centered, Sustainable, Equitable)を追加することで、ソフトウェア開発は、早期にユーザインプットを取り入れ、フロントエンドの設計がすべての利害関係者にアクセスできるようにし、ソフトウェア設計と一緒に長期的な持続可能性を計画していることで、オープンソースベストプラクティスに固執することができる。 FAIR-USE4OSガイドラインは、資金提供者と研究者がオープンソースソフトウェアプロジェクトをより効果的に評価し、計画することを可能にする。 しかし、FAIRガイドラインの下でも、これは単に土井善道が公開リポジトリでリリースしたソフトウェアを指すのかもしれない。 FAIR-USEソフトウェアを作成することで、設計プロセスの初期段階からベストプラクティスを実証することができます。

This paper extends the FAIR (Findable, Accessible, Interoperable, Reusable) guidelines to provide criteria for assessing if software conforms to best practices in open source. By adding 'USE' (User-Centered, Sustainable, Equitable), software development can adhere to open source best practice by incorporating user-input early on, ensuring front-end designs are accessible to all possible stakeholders, and planning long-term sustainability alongside software design. The FAIR-USE4OS guidelines will allow funders and researchers to more effectively evaluate and plan open source software projects. There is good evidence of funders increasingly mandating that all funded research software is open source; however, even under the FAIR guidelines, this could simply mean software released on public repositories with a Zenodo DOI. By creating FAIR-USE software, best practice can be demonstrated from the very beginning of the design process and the software has the greatest chance of success by being impactful.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# 強化学習エージェントのための論理仕様誘導動的タスクサンプリング

Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents ( http://arxiv.org/abs/2402.03678v3 )

ライセンス: Link先を確認
Yash Shukla, Tanushree Burman, Abhishek Kulkarni, Robert Wright, Alvaro Velasquez, Jivko Sinapov, (参考訳) 強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。 しかし、効果的な政策を学ぶには、しばしば多くの環境相互作用を必要とする。 サンプル複雑性の問題を緩和するために、近年のアプローチでは、LTL$_f$(Linear Temporal Logic)式やReward Machines(RM)のような高レベルのタスク仕様を使用してエージェントの学習進捗をガイドしている。 本研究では, エージェントを初期状態から目標状態へ誘導するRLポリシーを学習し, 高レベルタスク仕様に基づく目標状態へ誘導し, 環境相互作用の最小化を図る, 論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。 以前の作業とは異なり、LSTSは環境ダイナミクスやReward Machineに関する情報を前提とせず、目標ポリシの成功につながる有望なタスクを動的にサンプリングします。 我々は,LSTSをグリッドワールド上で評価し,最先端のRMやオートマトン誘導RLベースライン(Q-Learning for Reward Machines)や論理仕様(DIRL)など)と比較して,複雑なシーケンシャルな意思決定問題に対する時間対閾値性能の向上を実現することを示す。 さらに,本手法は,部分的に観察可能なロボットタスクと連続制御ロボット操作タスクの両方において,RMおよびオートマトン誘導RLベースラインよりも優れていることを示す。

Reinforcement Learning (RL) has made significant strides in enabling artificial agents to learn diverse behaviors. However, learning an effective policy often requires a large number of environment interactions. To mitigate sample complexity issues, recent approaches have used high-level task specifications, such as Linear Temporal Logic (LTL$_f$) formulas or Reward Machines (RM), to guide the learning progress of the agent. In this work, we propose a novel approach, called Logical Specifications-guided Dynamic Task Sampling (LSTS), that learns a set of RL policies to guide an agent from an initial state to a goal state based on a high-level task specification, while minimizing the number of environmental interactions. Unlike previous work, LSTS does not assume information about the environment dynamics or the Reward Machine, and dynamically samples promising tasks that lead to successful goal policies. We evaluate LSTS on a gridworld and show that it achieves improved time-to-threshold performance on complex sequential decision-making problems compared to state-of-the-art RM and Automaton-guided RL baselines, such as Q-Learning for Reward Machines and Compositional RL from logical Specifications (DIRL). Moreover, we demonstrate that our method outperforms RM and Automaton-guided RL baselines in terms of sample-efficiency, both in a partially observable robotic task and in a continuous control robotic manipulation task.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# 対角型漁業情報行列推定器のトレードオフ

Tradeoffs of Diagonal Fisher Information Matrix Estimators ( http://arxiv.org/abs/2402.05379v2 )

ライセンス: Link先を確認
Alexander Soen, Ke Sun, (参考訳) フィッシャー情報行列は、ニューラルネットワークのパラメータ空間における局所幾何学を特徴付ける。 ニューラルネットワークを理解し最適化するための洞察力のある理論と有用なツールを解明する。 計算コストが高いことから、実践者はしばしばランダムな推定器を使用し、対角成分のみを評価する。 精度とサンプルの複雑さが関連する分散に依存する2つの推定器について検討する。 分散の境界を導出し、回帰と分類のネットワークでそれらをインスタンス化する。 我々は、解析的および数値的研究に基づいて、推定者のトレードオフをナビゲートする。 分散量は異なるパラメータ群に対する非線形性に依存しており、フィッシャー情報を推定するときは無視すべきでない。

The Fisher information matrix characterizes the local geometry in the parameter space of neural networks. It elucidates insightful theories and useful tools to understand and optimize neural networks. Given its high computational cost, practitioners often use random estimators and evaluate only the diagonal entries. We examine two such estimators, whose accuracy and sample complexity depend on their associated variances. We derive bounds of the variances and instantiate them in regression and classification networks. We navigate trade-offs of both estimators based on analytical and numerical studies. We find that the variance quantities depend on the non-linearity with respect to different parameter groups and should not be neglected when estimating the Fisher information.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# 心筋梗塞再定義 : 1クラス分類における新しい多モード複合カーネル戦略

Refining Myocardial Infarction Detection: A Novel Multi-Modal Composite Kernel Strategy in One-Class Classification ( http://arxiv.org/abs/2402.06530v2 )

ライセンス: Link先を確認
Muhammad Uzair Zahid, Aysen Degerli, Fahad Sohrab, Serkan Kiranyaz, Tahir Hamid, Rashid Mazhar, Moncef Gabbouj, (参考訳) 冠状動脈疾患(CAD)による急性心筋梗塞(MI)の早期発見は、さらなる心筋梗塞の予防に不可欠である。 本研究では,心エコー法における一クラス分類法(OCC)を用いた早期MI検出法を提案する。 本研究は,マルチモーダルサブスペースサポートベクトルデータ記述に基づく新しいアプローチを採用することで,限られた心エコーデータ提供の課題を克服する。 提案手法は, 複合カーネルを非線形投影法に組み込んだ多視点心エコー法を用いて, ガウスとラプラシアのシグモイド関数を融合したMI検出フレームワークを含む。 さらに、最適化過程におけるモダリティの最大化と最大化を両立させることにより、プロジェクション行列の更新戦略を強化する。 心エコーデータから抽出した特徴を最適化された低次元部分空間に効率よく変換することでMI検出能力を向上する。 複数の心エコー図を含む総合的HMC-QUデータセットから、ターゲットクラスインスタンスに特化してトレーニングされたOCCモデルは、MI検出精度が著しく向上したことを示している。 心エコー図に基づくMI診断の大幅な進歩を示唆し,より正確かつ効率的な診断ツールを提供するため,提案したマルチビューアプローチは71.24%の幾何学的平均値を達成した。

Early detection of myocardial infarction (MI), a critical condition arising from coronary artery disease (CAD), is vital to prevent further myocardial damage. This study introduces a novel method for early MI detection using a one-class classification (OCC) algorithm in echocardiography. Our study overcomes the challenge of limited echocardiography data availability by adopting a novel approach based on Multi-modal Subspace Support Vector Data Description. The proposed technique involves a specialized MI detection framework employing multi-view echocardiography incorporating a composite kernel in the non-linear projection trick, fusing Gaussian and Laplacian sigmoid functions. Additionally, we enhance the update strategy of the projection matrices by adapting maximization for both or one of the modalities in the optimization process. Our method boosts MI detection capability by efficiently transforming features extracted from echocardiography data into an optimized lower-dimensional subspace. The OCC model trained specifically on target class instances from the comprehensive HMC-QU dataset that includes multiple echocardiography views indicates a marked improvement in MI detection accuracy. Our findings reveal that our proposed multi-view approach achieves a geometric mean of 71.24%, signifying a substantial advancement in echocardiography-based MI diagnosis and offering more precise and efficient diagnostic tools.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# 絡み合いの運命

The Fate of Entanglement ( http://arxiv.org/abs/2402.06677v2 )

ライセンス: Link先を確認
Gilles Parez, William Witczak-Krempa, (参考訳) 量子絡み合いは、基本的に粒子間の非局所的な相関である。 最も単純な実現法では、ある粒子の計測は、その粒子の分離に関係なく、パートナーの事前の測定によって影響を受ける。 複数の粒子に対して、純粋に集団的な絡み合いが存在するが、理論上でさえ、その検出は際立った未解決の問題である。 ここでは、システムの典型的な進化の間に、すべての形態の多元的絡み合いが完全に消失することを示し、それが加熱され、時間とともに進化し、その部分が分離される。 これらの結果は、物理的状態の空間における絡み合いのない大陸の性質に従い、非常に一般性を持つ。 我々はこれらの現象を、平衡から外れたフラストレーションの分子量子マグネットで説明する。 対照的に、粒子が電子のようなフェルミオンであれば、絡み合いのない領域を防ぎ、量子相関を保護するという別の絡み合いの概念が存在する。 これらの発見は、量子物質やアーキテクチャにおける絡み合いの構造に関する基本的な知識を与え、その操作の道を開いた。

Quantum entanglement is a fundamentally non-local correlation between particles. In its simplest realisation, a measurement on one particle is affected by a prior measurement on its partner, irrespective of their separation. For multiple particles, purely collective types of entanglement exist but their detection, even theoretically, remains an outstanding open question. Here, we show that all forms of multi-party entanglement entirely disappear during the typical evolution of a system as it heats up, evolves in time, or as its parts become separated. These results follow from the nature of the entanglement-free continent in the space of physical states, and hold in great generality. We illustrate these phenomena with a frustrated molecular quantum magnet in and out of equilibrium. In contrast, if the particles are fermions, such as electrons, another notion of entanglement exists that precludes entanglement-free regions, and thus protects quantum correlations. These findings provide fundamental knowledge about the structure of entanglement in quantum matter and architectures, paving the way for its manipulation.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# マルチタスク政策学習における視覚特徴のタスク条件適応

Task-conditioned adaptation of visual features in multi-task policy learning ( http://arxiv.org/abs/2402.07739v2 )

ライセンス: Link先を確認
Pierre Marza, Laetitia Matignon, Olivier Simonin, Christian Wolf, (参考訳) さまざまなタスクにうまく対処することは、自律エージェントの中核的な能力であり、根底にある意思決定戦略に柔軟に適応する必要がある。 類似した議論は人間の視覚システムであり、それは現在のタスクによって決定される注意に焦点を合わせるためにトップダウン信号を使用する。 同様に、マルチタスク政策学習の文脈において、特定の下流タスクに条件付けされた事前学習された大規模視覚モデルを適用する。 予め訓練した重みを微調整する必要のないタスク条件付きアダプタと、動作のクローンを訓練した単一ポリシーを組み合わせて、複数のタスクに対処可能なタスク条件付きアダプタを提案する。 タスクの埋め込みに対して視覚的アダプタを条件とし、タスクが分かっている場合や、例示の集合から推測された場合、推論時に選択できる。 そこで本研究では,最適化に基づく新しい推定手法を提案する。 我々は,CortexBenchベンチマークから多種多様なタスクに対する手法の評価を行い,既存の作業と比べ,一つのポリシーで対処できることを示した。 特に,視覚的特徴を適応させることが重要な設計選択であり,いくつかの実演を行うと,その手法が目に見えないタスクに一般化されることを実証する。

Successfully addressing a wide variety of tasks is a core ability of autonomous agents, requiring flexibly adapting the underlying decision-making strategies and, as we argue in this work, also adapting the perception modules. An analogical argument would be the human visual system, which uses top-down signals to focus attention determined by the current task. Similarly, we adapt pre-trained large vision models conditioned on specific downstream tasks in the context of multi-task policy learning. We introduce task-conditioned adapters that do not require finetuning any pre-trained weights, combined with a single policy trained with behavior cloning and capable of addressing multiple tasks. We condition the visual adapters on task embeddings, which can be selected at inference if the task is known, or alternatively inferred from a set of example demonstrations. To this end, we propose a new optimization-based estimator. We evaluate the method on a wide variety of tasks from the CortexBench benchmark and show that, compared to existing work, it can be addressed with a single policy. In particular, we demonstrate that adapting visual features is a key design choice and that the method generalizes to unseen tasks given a few demonstrations.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# CodeMind: コード推論のための大規模言語モデルに挑戦するフレームワーク

CodeMind: A Framework to Challenge Large Language Models for Code Reasoning ( http://arxiv.org/abs/2402.09664v4 )

ライセンス: Link先を確認
Changshu Liu, Shizhuo Dylan Zhang, Ali Reza Ibrahimzada, Reyhaneh Jabbarvand, (参考訳) コード合成にLLM(Large Language Models)を評価するためにテストパスに頼ることは、不公平な評価やデータ漏洩を伴うモデルの促進につながる可能性がある。 代替として,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。 CodeMindは現在、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。 最初の2つは、任意のコードやモデルが正しく合成できるコードの実行出力を予測するモデルを評価する。 3つ目は、LLMが特定の期待される振る舞いを実装する程度を評価することである。 CodeMindを用いた5つのベンチマークにおける9つのLLMの広範囲な評価は、LLMが制御フロー構造をかなり追従していることを示し、一般に、入力がどのように出力に進化するか、特に単純なプログラムとそれらが正しく合成できるものについて説明する。 しかし、そのパフォーマンスは、複雑さが高く、非自明な論理演算子、非プリミティブ型、API呼び出しを持つコードに対して低下する。 さらに、相関性はあるものの、仕様推論(コード合成に必須)は実行推論(テストやデバッグなどのより広範なプログラミングタスクに必要)を含まない。

Solely relying on test passing to evaluate Large Language Models (LLMs) for code synthesis may result in unfair assessment or promoting models with data leakage. As an alternative, we introduce CodeMind, a framework designed to gauge the code reasoning abilities of LLMs. CodeMind currently supports three code reasoning tasks: Independent Execution Reasoning (IER), Dependent Execution Reasoning (DER), and Specification Reasoning (SR). The first two evaluate models to predict the execution output of an arbitrary code or code the model could correctly synthesize. The third one evaluates the extent to which LLMs implement the specified expected behavior. Our extensive evaluation of nine LLMs across five benchmarks in two different programming languages using CodeMind shows that LLMs fairly follow control flow constructs and, in general, explain how inputs evolve to output, specifically for simple programs and the ones they can correctly synthesize. However, their performance drops for code with higher complexity, non-trivial logical and arithmetic operators, non-primitive types, and API calls. Furthermore, we observe that, while correlated, specification reasoning (essential for code synthesis) does not imply execution reasoning (essential for broader programming tasks such as testing and debugging): ranking LLMs based on test passing can be different compared to code reasoning.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# Emulated Disalignment: 大規模言語モデルの安全性アライメントはバックファイアかもしれない!

Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! ( http://arxiv.org/abs/2402.12343v3 )

ライセンス: Link先を確認
Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao, (参考訳) 大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。 しかし,本研究では,安全アライメントを容易に逆転させて有害な言語モデルを生成するための推論時攻撃法を提案する。 具体的には、安全整列言語モデル(例えば、Llama-2-chat)の出力トークン分布を、事前訓練されたバージョン(eg、Llama-2)と対比することにより、トークン予測をアライメントの反対方向にシフトさせる。 本手法は,安全報酬を最小限に抑えるために,トレーニング済みモデルを微調整した結果,純粋なサンプリング(あるいは「近似」)を有効にエミュレートするため,不整合(ED)をエミュレートする。 3つの評価データセットと4つのモデルファミリー(Llama-1,Llama-2,Mistral,Alpaca)で実験した結果,EDはトレーニング済みモデルの有害度を2倍にし,強いベースラインを上回り,48の評価サブセットのうち43の有害度を大きなマージンで達成した。 最終的に、オープンソースモデルに特に影響を及ぼす言語モデル出力トークン分布の必要性を考えると、安全アライメント後も、オープンソース言語モデルの実践を再評価することの重要性が浮き彫りになる。

Large language models (LLMs) need to undergo safety alignment to ensure safe conversations with humans. However, this paper introduces an inference-time attack method, demonstrating that safety alignment can be easily reversed to produce harmful language models without additional training. Specifically, this reversal is achieved by contrasting the output token distribution of a safety-aligned language model (e.g., Llama-2-chat) against its pre-trained version (e.g., Llama-2) so that the token predictions are shifted towards the opposite direction of alignment. We name this method emulated disalignment (ED) because it uses pure sampling to provably emulate (or "approximate") the result of fine-tuning the pre-trained model to minimize a safety reward. Our experiments with ED across three evaluation datasets and four model families (Llama-1, Llama-2, Mistral, and Alpaca) show that ED doubles the harmfulness of pre-trained models and outperforms strong baselines, achieving the highest harmful rate in 43 out of 48 evaluation subsets by a large margin. Eventually, given ED's need for language model output token distributions, which particularly compromises open-source models, our findings highlight the importance of reevaluating the practice of open-sourcing language models even after safety alignment.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# 視覚的位置認識のための事前学習モデルのシームレス適応に向けて

Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition ( http://arxiv.org/abs/2402.14505v3 )

ライセンス: Link先を確認
Feng Lu, Lijun Zhang, Xiangyuan Lan, Shuting Dong, Yaowei Wang, Chun Yuan, (参考訳) 近年の研究では、大規模データを用いた汎用的な視覚学習タスクで事前訓練された視覚モデルが、幅広い視覚知覚問題に有用な特徴表現を提供する可能性が示されている。 しかし、視覚的位置認識(VPR)において、事前訓練された基礎モデルを活用する試みはほとんど行われていない。 モデル事前学習とVPRのタスク間のトレーニング目標とデータに固有の違いがあるため、どのようにギャップを埋め、VPRのための事前訓練されたモデルの能力を完全に解き放つかは、依然として対処すべき重要な問題である。 そこで本研究では,VPRのための事前学習モデルのシームレスな適応を実現する新しい手法を提案する。 具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバル・ローカル両方の特徴を得るために、グローバル・ローカル両方の適応を効率的に実現するためのハイブリッド適応法を設計し、事前訓練されたモデルを調整することなく軽量アダプタのみをチューニングする。 また,有効適応の導出として,局所的マッチングに適切な局所的特徴が生成され,再ランク付けに要する時間的空間的検証を回避できる相互近接局所的特徴損失を提案する。 実験結果から,本手法は訓練データとトレーニング時間が少なくて最先端の手法より優れており,RANSACによる空間的検証を行う2段階VPR法では,約3%の検索実行時間しか利用できないことがわかった。 MSLSチャレンジリーダーボード(応募時点で)で1位にランクインしている。 コードはhttps://github.com/Lu-Feng/SelaVPRで公開されている。

Recent studies show that vision models pre-trained in generic visual learning tasks with large-scale data can provide useful feature representations for a wide range of visual perception problems. However, few attempts have been made to exploit pre-trained foundation models in visual place recognition (VPR). Due to the inherent difference in training objectives and data between the tasks of model pre-training and VPR, how to bridge the gap and fully unleash the capability of pre-trained models for VPR is still a key issue to address. To this end, we propose a novel method to realize seamless adaptation of pre-trained models for VPR. Specifically, to obtain both global and local features that focus on salient landmarks for discriminating places, we design a hybrid adaptation method to achieve both global and local adaptation efficiently, in which only lightweight adapters are tuned without adjusting the pre-trained model. Besides, to guide effective adaptation, we propose a mutual nearest neighbor local feature loss, which ensures proper dense local features are produced for local matching and avoids time-consuming spatial verification in re-ranking. Experimental results show that our method outperforms the state-of-the-art methods with less training data and training time, and uses about only 3% retrieval runtime of the two-stage VPR methods with RANSAC-based spatial verification. It ranks 1st on the MSLS challenge leaderboard (at the time of submission). The code is released at https://github.com/Lu-Feng/SelaVPR.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# MATHSENSEI: 数学的推論のためのツール拡張大型言語モデル

MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning ( http://arxiv.org/abs/2402.17231v3 )

ライセンス: Link先を確認
Debrup Das, Debopriyo Banerjee, Somak Aditya, Ashish Kulkarni, (参考訳) ツール強化された大規模言語モデル(TALM)は、大きな言語モデル(LLM)のスキルセットを高めることで知られており、多くのタスクにおける推論能力の向上につながっている。 一方、TALMは様々な質問答えベンチマーク、複雑な数学的推論ベンチマークにおける有効性、知識検索や数式解法のためのツールによって提供される潜在的な補完的な利点は、オープンな研究課題である。 本研究では,数学的推論のためのツール強化された大規模言語モデルであるMathSenseiを紹介する。 本稿では,知識検索 (Bing Web Search), プログラム生成器+実行器 (Python), 記号方程式解決器 (Wolfram-Alpha API) といったツールの相補的な利点について,数学的推論データセットの評価を通して検討する。 我々は、様々な数学的分野の数学的推論を評価するための一般的なデータセットであるMATHについて、徹底的なアブリケーションを行う。 また、有名なツールプランナによる実験を行い、ツールシークエンシングがモデル性能に与える影響について検討する。 MathSenseiは、MATHデータセット上のChain-of-Thoughtでgpt-3.5-turboよりも13.5%精度が向上している。 さらに,より単純な数学語問題(GSM-8K)に対してTALMは有効ではなく,複雑性や必要な知識が増大するにつれてメリットが増す(AQuA,MMLU-Math,MATHの高次複雑問題など)。 コードとデータはhttps://github.com/Debrup-61/MathSensei.comで公開されている。

Tool-augmented Large Language Models (TALMs) are known to enhance the skillset of large language models (LLMs), thereby, leading to their improved reasoning abilities across many tasks. While, TALMs have been successfully employed in different question-answering benchmarks, their efficacy on complex mathematical reasoning benchmarks, and the potential complementary benefits offered by tools for knowledge retrieval and mathematical equation solving are open research questions. In this work, we present MathSensei, a tool-augmented large language model for mathematical reasoning. We study the complementary benefits of the tools - knowledge retriever (Bing Web Search), program generator + executor (Python), and symbolic equation solver (Wolfram-Alpha API) through evaluations on mathematical reasoning datasets. We perform exhaustive ablations on MATH, a popular dataset for evaluating mathematical reasoning on diverse mathematical disciplines. We also conduct experiments involving well-known tool planners to study the impact of tool sequencing on the model performance. MathSensei achieves 13.5% better accuracy over gpt-3.5-turbo with Chain-of-Thought on the MATH dataset. We further observe that TALMs are not as effective for simpler math word problems (in GSM-8K), and the benefit increases as the complexity and required knowledge increases (progressively over AQuA, MMLU-Math, and higher level complex questions in MATH). The code and data are available at https://github.com/Debrup-61/MathSensei.
翻訳日:2024-04-04 22:08:00 公開日:2024-04-03
# フェデレートラーニングのための最適輸送によるグローバル・ローカル・プロンプト連携

Global and Local Prompts Cooperation via Optimal Transport for Federated Learning ( http://arxiv.org/abs/2403.00041v2 )

ライセンス: Link先を確認
Hongxia Li, Wei Huang, Jingya Wang, Ye Shi, (参考訳) 事前訓練された視覚言語モデルにおけるプロンプト学習は、様々な下流タスクで顕著な柔軟性を示している。 最近の研究は、その本質的な軽量性を活用して、強力な事前学習モデルを連合学習フレームワークに統合し、同時に通信コストを削減し、不十分なデータに対する局所的なトレーニングを促進することを試みた。 これらの努力にもかかわらず、現在の連合型急進学習手法では、ラベルと特徴の双方を含むデータ分布など、重大なデータ不均一性に体系的に対処する特別な設計が欠如している。 この課題に対処するため,FedOTP(Federated Prompts Cooperation via Optimal Transport)を提案する。 具体的には、各クライアントに対して、クライアント間のコンセンサス知識を抽出するグローバルなプロンプトと、クライアント固有のカテゴリ特性をキャプチャするローカルなプロンプトを学習する。 不均衡な最適輸送は、これらのプロンプトと局所的な視覚的特徴を整合させるために使用され、グローバルなコンセンサスと局所的なパーソナライゼーションのバランスを損なう。 同じ制約の1つを緩和することで、FedOTPはプロンプトがイメージパッチのコア領域のみに集中できるようにする。 多様な異種性を持つデータセットに対する大規模な実験は、我々のFedOTPが最先端の手法よりも優れていることを示した。

Prompt learning in pretrained visual-language models has shown remarkable flexibility across various downstream tasks. Leveraging its inherent lightweight nature, recent research attempted to integrate the powerful pretrained models into federated learning frameworks to simultaneously reduce communication costs and promote local training on insufficient data. Despite these efforts, current federated prompt learning methods lack specialized designs to systematically address severe data heterogeneities, e.g., data distribution with both label and feature shifts involved. To address this challenge, we present Federated Prompts Cooperation via Optimal Transport (FedOTP), which introduces efficient collaborative prompt learning strategies to capture diverse category traits on a per-client basis. Specifically, for each client, we learn a global prompt to extract consensus knowledge among clients, and a local prompt to capture client-specific category characteristics. Unbalanced Optimal Transport is then employed to align local visual features with these prompts, striking a balance between global consensus and local personalization. By relaxing one of the equality constraints, FedOTP enables prompts to focus solely on the core regions of image patches. Extensive experiments on datasets with various types of heterogeneities have demonstrated that our FedOTP outperforms the state-of-the-art methods.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# テクスチャを用いたセマンティックヒューマンメッシュ再構築

Semantic Human Mesh Reconstruction with Textures ( http://arxiv.org/abs/2403.02561v2 )

ライセンス: Link先を確認
Xiaoyu Zhan, Jianxin Yang, Yuanqi Li, Jie Guo, Yanwen Guo, Wenping Wang, (参考訳) 近年,3次元メッシュ再構築の分野は大きな進歩を遂げている。 しかしながら、現在の手法は、不安定な結果、低品質メッシュ、UVアンラッピングとスキンウェイトが欠如しているため、産業用途での使用において依然として課題に直面している。 本稿では,セマンティック・ヒューマンメッシュをテクスチャと高精度で再構築可能な新しいパイプラインであるSHERTを提案する。 SHERTは、詳細曲面(egメッシュとSDF)と対応するSMPL-Xモデルとのセマンティック・ベース・サンプリングを適用して、部分的なセマンティック・メッシュを取得し、その後、特別に設計された自己教師付き補完・改良ネットワークによって完全なセマンティック・メッシュを生成する。 完全なセマンティックメッシュをベースとして、画像とテキストの両方によって駆動される人間のテクスチャを作成するために、テクスチャ拡散モデルを用いる。 再構成メッシュには、安定した紫外線アンラッピング、高品質なトライアングルメッシュ、一貫性のあるセマンティック情報がある。 与えられたSMPL-Xモデルは意味情報と形状の事前情報を提供し、SHERTは誤った入力や不完全な入力でもうまく機能する。 また、セマンティック情報により、顔、体、手などの異なる身体部位の置き換えやアニメーションも容易になる。 定量的および定性的な実験により、SHERTは最先端の手法より優れた高忠実で堅牢なセマンティックメッシュを生成することができることを示した。

The field of 3D detailed human mesh reconstruction has made significant progress in recent years. However, current methods still face challenges when used in industrial applications due to unstable results, low-quality meshes, and a lack of UV unwrapping and skinning weights. In this paper, we present SHERT, a novel pipeline that can reconstruct semantic human meshes with textures and high-precision details. SHERT applies semantic- and normal-based sampling between the detailed surface (e.g. mesh and SDF) and the corresponding SMPL-X model to obtain a partially sampled semantic mesh and then generates the complete semantic mesh by our specifically designed self-supervised completion and refinement networks. Using the complete semantic mesh as a basis, we employ a texture diffusion model to create human textures that are driven by both images and texts. Our reconstructed meshes have stable UV unwrapping, high-quality triangle meshes, and consistent semantic information. The given SMPL-X model provides semantic information and shape priors, allowing SHERT to perform well even with incorrect and incomplete inputs. The semantic information also makes it easy to substitute and animate different body parts such as the face, body, and hands. Quantitative and qualitative experiments demonstrate that SHERT is capable of producing high-fidelity and robust semantic meshes that outperform state-of-the-art methods.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# ジェネレーティブ・ソフトウェア・エンジニアリング

Generative Software Engineering ( http://arxiv.org/abs/2403.02583v2 )

ライセンス: Link先を確認
Yuan Huang, Yinan Chen, Xiangping Chen, Junqi Chen, Rui Peng, Zhicao Tang, Jinbo Huang, Furen Xu, Zibin Zheng, (参考訳) ディープラーニング技術の急速な開発、計算能力の向上、膨大なトレーニングデータの提供により、事前訓練されたモデルと大規模言語モデル(LLM)が大幅に進歩した。 BERTやTransformerのようなアーキテクチャやChatGPTのようなLLMに基づく事前訓練されたモデルは、驚くべき言語機能を示し、ソフトウェア工学の応用を見出した。 ソフトウェアエンジニアリングタスクは、多くのカテゴリに分けられる。その中では、生成タスクが研究者の最も関心事である。そこでは、事前学習されたモデルとLLMが強力な言語表現と文脈認識能力を持ち、多様なトレーニングデータを活用して、微調整、移行学習、迅速なエンジニアリングを通じて生成タスクに適応することができる。 これらの利点は、生成タスクにおいて効果的なツールとなり、優れたパフォーマンスを示している。 本稿では,事前学習モデルとLLMを用いて,SEにおける生成タスクの総合的な文献レビューを行う。 ソフトウェア工学の方法論に基づくSE生成タスクを正確に分類し、関連する高度な事前学習モデルとLCMと、使用するデータセットと評価指標を要約する。 さらに、既存のアプローチにおける鍵となる強み、弱点、ギャップを特定し、潜在的研究の方向性を提案する。 本総説は、SE内の生成タスクにおける事前学習モデルとLLMの適用について、研究者や実践者に詳細な分析とガイダンスを提供することを目的としている。

The rapid development of deep learning techniques, improved computational power, and the availability of vast training data have led to significant advancements in pre-trained models and large language models (LLMs). Pre-trained models based on architectures such as BERT and Transformer, as well as LLMs like ChatGPT, have demonstrated remarkable language capabilities and found applications in Software engineering. Software engineering tasks can be divided into many categories, among which generative tasks are the most concern by researchers, where pre-trained models and LLMs possess powerful language representation and contextual awareness capabilities, enabling them to leverage diverse training data and adapt to generative tasks through fine-tuning, transfer learning, and prompt engineering. These advantages make them effective tools in generative tasks and have demonstrated excellent performance. In this paper, we present a comprehensive literature review of generative tasks in SE using pre-trained models and LLMs. We accurately categorize SE generative tasks based on software engineering methodologies and summarize the advanced pre-trained models and LLMs involved, as well as the datasets and evaluation metrics used. Additionally, we identify key strengths, weaknesses, and gaps in existing approaches, and propose potential research directions. This review aims to provide researchers and practitioners with an in-depth analysis and guidance on the application of pre-trained models and LLMs in generative tasks within SE.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# 大規模言語モデルのためのプライバシ対応セマンティックキャッシュ

Privacy-Aware Semantic Cache for Large Language Models ( http://arxiv.org/abs/2403.02694v2 )

ライセンス: Link先を確認
Waris Gill, Mohamed Elidrisi, Pallavi Kalapatapu, Ali Anwar, Muhammad Ali Gulzar, (参考訳) ChatGPTやLlama2のような大規模言語モデル(LLM)は、自然言語処理と検索エンジンのダイナミクスに革命をもたらした。 しかし、これらのモデルは非常に高い計算コストがかかる。 例えば、GPT-3は1750億のパラメータで構成され、推論は何十億もの浮動小数点演算を必要とする。 キャッシングは、全クエリの約31%を構成する繰り返しクエリに対するLCM推論コストを削減するための自然なソリューションである。 しかし、既存のキャッシュ手法ではLLMクエリ間のセマンティックな類似性を見つけることができず、許容できない偽のヒット・アンド・ミスレートにつながる。 本稿では,LLMのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。 MeanCacheを使用すると、ユーザーのセマンティックに類似したクエリに対する応答は、LLMを再クエリするのではなく、ローカルキャッシュから取得できるため、コスト、サービスプロバイダの負荷、環境への影響を低減できる。 LLMの既存のキャッシュソリューションは、プライバシとスケーラビリティの懸念を高め、無駄なクエリ要求を実行する。 MeanCacheは、フェデレートラーニング(FL)を活用して、プライバシに違反することなく、LLMユーザ間でクエリ類似性モデルを協調的にトレーニングする。 各ユーザのデバイスにローカルキャッシュを配置してFLを使用することで、MeanCacheはレイテンシとコストを低減し、モデルパフォーマンスを向上させる。 MeanCacheは埋め込み次元を圧縮してキャッシュストレージを最小限にし、最適なコサイン類似性しきい値を見つける。 我々の実験は、最先端のキャッシュ手法と比較し、MeanCacheは、セマンティックキャッシュのヒット・アンド・ミス決定において、約17%のFスコアを獲得し、20%の精度で精度が向上することを示した。 また、ストレージ要求を83%削減し、セマンティックキャッシュのヒットアンドミス決定を11%高速化する。

Large Language Models (LLMs) like ChatGPT and Llama2 have revolutionized natural language processing and search engine dynamics. However, these models incur exceptionally high computational costs. For instance, GPT-3 consists of 175 billion parameters where inference demands billions of floating-point operations. Caching is a natural solution to reduce LLM inference costs on repeated queries which constitute about 31% of the total queries. However, existing caching methods are incapable of finding semantic similarities among LLM queries, leading to unacceptable false hit-and-miss rates. This paper introduces MeanCache, a user-centric semantic cache for LLMs that identifies semantically similar queries to determine cache hit or miss. Using MeanCache, the response to a user's semantically similar query can be retrieved from a local cache rather than re-querying the LLM, thus reducing costs, service provider load, and environmental impact. Existing caching solutions for LLMs raise privacy and scalability concerns and perform wasteful query requests. MeanCache leverages Federated Learning (FL) to collaboratively train a query similarity model across LLM users without violating privacy. By placing a local cache in each user's device and using FL, MeanCache reduces the latency and costs and enhances model performance, resulting in lower false hit rates. MeanCache compresses the embedding dimensions to minimize cache storage and also finds the optimal cosine similarity threshold. Our experiments benchmarked against the state-of-the-art caching method, reveal that MeanCache attains an approximately 17% higher F-score and a 20% increase in precision during semantic cache hit-and-miss decisions. It also reduces the storage requirement by 83% and accelerates semantic cache hit-and-miss decisions by 11%.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# Breeze-7B技術報告

Breeze-7B Technical Report ( http://arxiv.org/abs/2403.02712v2 )

ライセンス: Link先を確認
Chan-Jan Hsu, Chang-Le Liu, Feng-Ting Liao, Po-Chun Hsu, Yi-Chang Chen, Da-Shan Shiu, (参考訳) Breeze-7BはMistral-7Bをベースとしたオープンソースの言語モデルであり、伝統的な中国語における言語理解とチャットボット指向の機能の改善の必要性に対処するために設計された。 本稿では,Breeze-7Bモデルの事前訓練,微調整,評価段階について概説する。 ベースモデルとチャットモデルのBreeze-7Bファミリは、言語理解とチャットボット指向のタスクにおいて優れたパフォーマンスを示し、複雑性クラスに匹敵するモデルのいくつかのベンチマークでトップに達した。

Breeze-7B is an open-source language model based on Mistral-7B, designed to address the need for improved language comprehension and chatbot-oriented capabilities in Traditional Chinese. This technical report provides an overview of the additional pretraining, finetuning, and evaluation stages for the Breeze-7B model. The Breeze-7B family of base and chat models exhibits good performance on language comprehension and chatbot-oriented tasks, reaching the top in several benchmarks among models comparable in its complexity class.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# クロスドメインFew-Shot学習のための識別的サンプルガイドとパラメータ効率の良い特徴空間適応

Discriminative Sample-Guided and Parameter-Efficient Feature Space Adaptation for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2403.04492v3 )

ライセンス: Link先を確認
Rashindrie Perera, Saman Halgamuge, (参考訳) 本稿では,これまで見つからなかった領域で新しいクラスを学習する上で,ラベル付き例がほとんどない課題を示す,クロスドメインの複数ショット分類について考察する。 既存の方法は幾分効果があるが、いくつかの制限に遭遇し、2つの重要な改善によって緩和される。 まず,小データセット上で多数のパラメータを微調整するオーバーフィッティングに対処する,軽量なパラメータ効率適応手法を提案する。 この戦略は事前訓練された特徴の線形変換を採用し、トレーニング可能なパラメータ数を著しく削減する。 第2に,従来のCentroid分類器を識別的サンプル認識損失関数に置き換え,特徴空間におけるクラスタリングを改善するためのトレーニングセット内およびクラス内分散に対するモデルの感度を高める。 Meta-Datasetベンチマークの実証的な評価によると、我々の手法は、これまで見てきたデータセットの精度を7.7\%と5.3\%に向上するだけでなく、上記の性能を少なくとも$\sim3\times$既存のメソッドよりも高いパラメータ効率で達成し、クロスドメインのマイクロショット学習における新しい最先端技術を確立している。 私たちのコードはhttps://github.com/rashindrie/DIPA.comで公開されています。

In this paper, we look at cross-domain few-shot classification which presents the challenging task of learning new classes in previously unseen domains with few labelled examples. Existing methods, though somewhat effective, encounter several limitations, which we alleviate through two significant improvements. First, we introduce a lightweight parameter-efficient adaptation strategy to address overfitting associated with fine-tuning a large number of parameters on small datasets. This strategy employs a linear transformation of pre-trained features, significantly reducing the trainable parameter count. Second, we replace the traditional nearest centroid classifier with a discriminative sample-aware loss function, enhancing the model's sensitivity to the inter- and intra-class variances within the training set for improved clustering in feature space. Empirical evaluations on the Meta-Dataset benchmark showcase that our approach not only improves accuracy up to 7.7\% and 5.3\% on previously seen and unseen datasets, respectively, but also achieves the above performance while being at least $\sim3\times$ more parameter-efficient than existing methods, establishing a new state-of-the-art in cross-domain few-shot learning. Our code is available at https://github.com/rashindrie/DIPA.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# ジェネレーティブAIによる電力市場信号の予測

Forecasting Electricity Market Signals via Generative AI ( http://arxiv.org/abs/2403.05743v2 )

ライセンス: Link先を確認
Xinyi Wang, Qing Zhao, Lang Tong, (参考訳) 本稿では,電力市場信号の確率予測のための生成的人工知能アプローチを提案する。 非パラメトリック時系列のWiener-Kallianpur革新表現にインスパイアされた、弱いイノベーションオートエンコーダアーキテクチャと、将来の時系列サンプルを生成する時系列の標準独立かつ同一に分散されたイノベーションシーケンスを抽出する新しいディープラーニングアルゴリズムを提案する。 提案手法の有効性は, 理想的な訓練条件下では, 生成したサンプルが基底真理と同じ条件付き確率分布を持つことを証明することによって確立される。 リアルタイム市場運用における動的・揮発性時系列の3つの応用について考察する。 一 蓄電池等の自己予定資源の位置的限界価格予測 二 為替市場における仮想入札者の地域間価格スプレッド予測 三 周波数規制のエリア制御誤差予測 複数の独立系オペレーターの市場データに基づく数値的研究は、確率的および点予測の両指標の下で、古典的および近代的な機械学習手法を先導するよりも、提案した生成予測器の優れた性能を示す。

This paper presents a generative artificial intelligence approach to probabilistic forecasting of electricity market signals, such as real-time locational marginal prices and area control error signals. Inspired by the Wiener-Kallianpur innovation representation of nonparametric time series, we propose a weak innovation autoencoder architecture and a novel deep learning algorithm that extracts the canonical independent and identically distributed innovation sequence of the time series, from which future time series samples are generated. The validity of the proposed approach is established by proving that, under ideal training conditions, the generated samples have the same conditional probability distribution as that of the ground truth. Three applications involving highly dynamic and volatile time series in real-time market operations are considered: (i) locational marginal price forecasting for self-scheduled resources such as battery storage participants, (ii) interregional price spread forecasting for virtual bidders in interchange markets, and (iii) area control error forecasting for frequency regulations. Numerical studies based on market data from multiple independent system operators demonstrate the superior performance of the proposed generative forecaster over leading classical and modern machine learning techniques under both probabilistic and point forecasting metrics.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# 長期フレームイベントビジュアルトラッキング:ベンチマークデータセットとベースライン

Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline ( http://arxiv.org/abs/2403.05839v2 )

ライセンス: Link先を確認
Xiao Wang, Ju Huang, Shiao Wang, Chuanming Tang, Bo Jiang, Yonghong Tian, Jin Tang, Bin Luo, (参考訳) 現在のイベント/フレームイベントベースのトラッカーは、短期追跡データセットの評価を行っているが、現実のシナリオのトラッキングには、長期追跡が関係しており、これらのシナリオにおける既存のトラッキングアルゴリズムのパフォーマンスは、まだ不明である。 本稿では, FELT と呼ばれる, 長期かつ大規模で大規模な単一オブジェクト追跡データセットを提案する。 742の動画と1,594,474のRGBフレームとイベントストリームペアが含まれており、これまでで最大のフレームイベント追跡データセットになっている。 今後比較する作業のために、データセット上で15のベースライントラッカーを再トレーニングし、評価します。 さらに重要なことは、RGBフレームとイベントストリームが自然に不完全であることは、困難な要因と空間的に疎いイベントフローの影響により明らかである。 そこで本研究では,RGBとイベントデータの両方を融合させるために,現代的なホップフィールド層をマルチヘッド自己アテンションブロックに導入することにより,新しい連想メモリトランスフォーマーネットワークを統一バックボーンとして提案する。 RGB-Event(FELT)、RGB-Thermal(RGBT234,LasHeR)、RGB-Depth(DepthTrack)データセットに関する大規模な実験により、我々のモデルの有効性が完全に検証された。 データセットとソースコードは \url{https://github.com/Event-AHU/FELT_SOT_Benchmark} で見ることができる。

Current event-/frame-event based trackers undergo evaluation on short-term tracking datasets, however, the tracking of real-world scenarios involves long-term tracking, and the performance of existing tracking algorithms in these scenarios remains unclear. In this paper, we first propose a new long-term and large-scale frame-event single object tracking dataset, termed FELT. It contains 742 videos and 1,594,474 RGB frames and event stream pairs and has become the largest frame-event tracking dataset to date. We re-train and evaluate 15 baseline trackers on our dataset for future works to compare. More importantly, we find that the RGB frames and event streams are naturally incomplete due to the influence of challenging factors and spatially sparse event flow. In response to this, we propose a novel associative memory Transformer network as a unified backbone by introducing modern Hopfield layers into multi-head self-attention blocks to fuse both RGB and event data. Extensive experiments on RGB-Event (FELT), RGB-Thermal (RGBT234, LasHeR), and RGB-Depth (DepthTrack) datasets fully validated the effectiveness of our model. The dataset and source code can be found at \url{https://github.com/Event-AHU/FELT_SOT_Benchmark}.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# MolBind: 言語、分子、タンパク質の多モードアライメント

MolBind: Multimodal Alignment of Language, Molecules, and Proteins ( http://arxiv.org/abs/2403.08167v2 )

ライセンス: Link先を確認
Teng Xiao, Chao Cui, Huaisheng Zhu, Vasant G. Honavar, (参考訳) 生物学と化学の最近の進歩は、マルチモーダル学習を活用し、分子とそれらの自然言語の記述を統合して、薬物発見を強化している。 しかし、現在の事前学習フレームワークは2つのモダリティに制限されており、異なるモダリティ(自然言語、2D分子グラフ、3D分子コンフォメーション、3Dタンパク質など)を処理する統一ネットワークを設計している。 本研究では,マルチモーダルなセマンティックアライメントのための共有特徴空間にすべてのモダリティをマッピングし,コントラスト学習を通じて複数のモーダルのエンコーダを訓練するフレームワークであるMollBindを提案する。 マルチモーダル性に基づくMollBindの効果的な事前学習を容易にするため,グラフ言語,コンフォメーション言語,グラフコンフォーメーション,コンフォメーションタンパク質ペアデータを含む,4つのモーダル性を持つ高品質なデータセットを構築し,収集する。 MolBindは、幅広いタスクにわたって優れたゼロショット学習性能を示し、複数のモダリティの基盤となるセマンティクスをキャプチャする強力な能力を示している。

Recent advancements in biology and chemistry have leveraged multi-modal learning, integrating molecules and their natural language descriptions to enhance drug discovery. However, current pre-training frameworks are limited to two modalities, and designing a unified network to process different modalities (e.g., natural language, 2D molecular graphs, 3D molecular conformations, and 3D proteins) remains challenging due to inherent gaps among them. In this work, we propose MolBind, a framework that trains encoders for multiple modalities through contrastive learning, mapping all modalities to a shared feature space for multi-modal semantic alignment. To facilitate effective pre-training of MolBind on multiple modalities, we also build and collect a high-quality dataset with four modalities, MolBind-M4, including graph-language, conformation-language, graph-conformation, and conformation-protein paired data. MolBind shows superior zero-shot learning performance across a wide range of tasks, demonstrating its strong capability of capturing the underlying semantics of multiple modalities.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# Bootstrapped Preference Optimization を用いたマルチモーダル大言語モデルの強化

Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization ( http://arxiv.org/abs/2403.08730v2 )

ライセンス: Link先を確認
Renjie Pi, Tianyang Han, Wei Xiong, Jipeng Zhang, Runtao Liu, Rui Pan, Tong Zhang, (参考訳) MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。 しかし、彼らはしばしば、事前学習したコーパスと同様の反応を生じさせ、視覚情報の重要性を誇示するバイアスに悩まされる。 我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。 この問題を緩和するために、モデル自体からブートストラップされた負の応答を含むデータセットを用いて好みの学習を行うBootstrapped Preference Optimization (BPO)を提案する。 具体的には,以下の2つの戦略を提案する。 1) MLLMへの歪み画像入力を用いて,有意な事前学習バイアスを含む応答を抽出する。 2) テキストベースの LLM を利用して, 誤ったが共通な要素を元の応答に明示的に注入する。 これらの望ましくない応答は、データセットからのオリジナルの注釈付き応答とペアになって、好みのデータセットを構築し、その後、好みの学習を実行するために使用される。 提案手法は,事前学習したLLMバイアスを効果的に抑制し,視覚入力のグラウンド化を向上する。 大規模な実験により、複数のベンチマークで大幅な性能向上が示され、マルチモーダルな会話システムにおける最先端技術が進歩した。

Multimodal Large Language Models (MLLMs) excel in generating responses based on visual inputs. However, they often suffer from a bias towards generating responses similar to their pretraining corpus, overshadowing the importance of visual information. We treat this bias as a "preference" for pretraining statistics, which hinders the model's grounding in visual input. To mitigate this issue, we propose Bootstrapped Preference Optimization (BPO), which conducts preference learning with datasets containing negative responses bootstrapped from the model itself. Specifically, we propose the following two strategies: 1) using distorted image inputs to the MLLM for eliciting responses that contain signified pretraining bias; 2) leveraging text-based LLM to explicitly inject erroneous but common elements into the original response. Those undesirable responses are paired with original annotated responses from the datasets to construct the preference dataset, which is subsequently utilized to perform preference learning. Our approach effectively suppresses pretrained LLM bias, enabling enhanced grounding in visual inputs. Extensive experimentation demonstrates significant performance improvements across multiple benchmarks, advancing the state-of-the-art in multimodal conversational systems.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# オープンファイバキャビティを有する通信Oバンドにおける量子ドットのパーセル化の検討

Investigation of Purcell enhancement of quantum dots emitting in the telecom O-band with an open fiber-cavity ( http://arxiv.org/abs/2403.10960v2 )

ライセンス: Link先を確認
Julian Maisch, Jonas Grammel, Nam Tran, Michael Jetter, Simone L. Portalupi, David Hunger, Peter Michler, (参考訳) 光マイクロキャビティに統合された単一光子エミッタは、量子通信アプリケーションにおいて重要な要素である。 しかし、キャビティ幾何学と量子エミッタ系の組み合わせには、放射特性の最適化とキャビティ・エミッタ相互作用に特別な課題がある。 本稿では、オープンファイバキャビティに集積された通信Oバンドに放出される半導体量子ドット(QD)について、徹底的に検討する。 この設計は、内在的なファイバーカップリングを備えた全空間次元で調整可能な光学マイクロキャビティを提供する。 その結果、高い収集効率と空間的およびスペクトル的に変化するサンプルの調査に有望なアプローチを提供する。 一方、システムは振動騒音の影響を受けやすい。 そこで, キャビティとエミッタ特性の総合的研究を行い, キャビティ長の変動の解析を行った。 パーセルの強化により、最大で$2.46(2)}$までの崩壊時間の減少が観察される。

Single-photon emitters integrated in optical micro-cavities are key elements in quantum communication applications. However, for each combination of a cavity geometry with a quantum emitter system, there are specific challenges in the optimization of the emission properties and cavity-emitter interaction. Here, we present a thorough investigation of semiconductor quantum dots (QDs), emitting in the telecom O-band, integrated in an open fiber-cavity. The design provides an optical micro-cavity tunable in all spatial dimensions with intrinsic fiber-coupling. Consequently, it offers a promising approach to a high collection efficiency and the investigation of spatially and spectrally varying samples. On the other hand, the system is also susceptible to vibrational noise. Therefore, we provide a comprehensive study of the cavity and emitter properties together with an analysis of the fluctuations of the cavity length. Due to the Purcell enhancement, we observe a reduction of the decay times of up to a factor of ${2.46(2)}$.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# アナリシススメッティング:分析積分によるアンチエイリアス3次元ガウススメッティング

Analytic-Splatting: Anti-Aliased 3D Gaussian Splatting via Analytic Integration ( http://arxiv.org/abs/2403.11056v2 )

ライセンス: Link先を確認
Zhihao Liang, Qi Zhang, Wenbo Hu, Ying Feng, Lei Zhu, Kui Jia, (参考訳) 3D Gaussian Splatting (3DGS)は、プリミティブベースとボリューム3D表現の利点を組み合わせることで、最近人気を博し、3Dシーンレンダリングの質と効率を改善した。 しかし、3DGSはエイリアスフリーではなく、解像度の異なるレンダリングは、深刻なぼやけやジャギーをもたらす可能性がある。 これは、3DGSが各ピクセルを領域ではなく孤立した単一点として扱い、ピクセルのフットプリントの変化に敏感であるからである。 このため、この離散サンプリング方式は、制限されたサンプリング帯域幅のため、必然的にエイリアスとなる。 本稿では,この問題に対処するための解析解を導出する。 より具体的には、1次元ガウス信号における累積分布関数(CDF)の解析近似として条件付きロジスティック関数を用い、CDFを減算してガウス積分を計算する。 次に、この近似を2次元のピクセルシェーディングに導入し、2次元のウィンドウ領域内のガウス積分を解析的に近似し、各画素の強度応答をよりよく捉える解析-スメッティング法を提案する。 さらに、画素ウィンドウ積分領域の近似応答を用いてボリュームレンダリングの透過率計算に参画し、異なる解像度での画素フットプリントの変化に敏感になる。 さまざまなデータセットの実験は、我々のアプローチがより詳細な情報と忠実度を提供するより良いアンチエイリアス能力を持っていることを実証している。

The 3D Gaussian Splatting (3DGS) gained its popularity recently by combining the advantages of both primitive-based and volumetric 3D representations, resulting in improved quality and efficiency for 3D scene rendering. However, 3DGS is not alias-free, and its rendering at varying resolutions could produce severe blurring or jaggies. This is because 3DGS treats each pixel as an isolated, single point rather than as an area, causing insensitivity to changes in the footprints of pixels. Consequently, this discrete sampling scheme inevitably results in aliasing, owing to the restricted sampling bandwidth. In this paper, we derive an analytical solution to address this issue. More specifically, we use a conditioned logistic function as the analytic approximation of the cumulative distribution function (CDF) in a one-dimensional Gaussian signal and calculate the Gaussian integral by subtracting the CDFs. We then introduce this approximation in the two-dimensional pixel shading, and present Analytic-Splatting, which analytically approximates the Gaussian integral within the 2D-pixel window area to better capture the intensity response of each pixel. Moreover, we use the approximated response of the pixel window integral area to participate in the transmittance calculation of volume rendering, making Analytic-Splatting sensitive to the changes in pixel footprint at different resolutions. Experiments on various datasets validate that our approach has better anti-aliasing capability that gives more details and better fidelity.
翻訳日:2024-04-04 21:58:11 公開日:2024-04-03
# AGFSync: テキスト・画像生成におけるAI生成フィードバックの活用

AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation ( http://arxiv.org/abs/2403.13352v3 )

ライセンス: Link先を確認
Jingkun An, Yinghao Zhu, Zongjian Li, Haoran Feng, Bohua Chen, Yemin Shi, Chengwei Pan, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルは画像生成において顕著な成功を収めた。 彼らの進歩にもかかわらず、課題は、これらのモデルを洗練するのに不可欠な、迅速なフォロー能力、画質、高品質なデータセットの欠如の両方に留まっている。 ラベル付きデータの取得にはコストがかかるため、AI駆動のアプローチでDPO(Direct Preference Optimization)を通じてT2I拡散モデルを強化するフレームワークであるAGFSyncを導入する。 AGFSyncは、VLM(Vision-Language Models)を使用して、スタイル、コヒーレンス、美学にわたる画像品質を評価し、AI駆動ループ内でフィードバックデータを生成する。 AGFSyncをSD v1.4、v1.5、SDXLといった主要なT2Iモデルに適用することにより、TIFAデータセットの広範な実験により、VQAスコア、審美評価、HPSv2ベンチマークのパフォーマンスが大幅に向上し、ベースモデルを上回った。 AGFSyncのT2I拡散モデルの精製方法は、スケーラブルなアライメント手法の道を開く。

Text-to-Image (T2I) diffusion models have achieved remarkable success in image generation. Despite their progress, challenges remain in both prompt-following ability, image quality and lack of high-quality datasets, which are essential for refining these models. As acquiring labeled data is costly, we introduce AGFSync, a framework that enhances T2I diffusion models through Direct Preference Optimization (DPO) in a fully AI-driven approach. AGFSync utilizes Vision-Language Models (VLM) to assess image quality across style, coherence, and aesthetics, generating feedback data within an AI-driven loop. By applying AGFSync to leading T2I models such as SD v1.4, v1.5, and SDXL, our extensive experiments on the TIFA dataset demonstrate notable improvements in VQA scores, aesthetic evaluations, and performance on the HPSv2 benchmark, consistently outperforming the base models. AGFSync's method of refining T2I diffusion models paves the way for scalable alignment techniques.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# ブロックZXZ分解に基づく一般nビットゲートの回路構成

Beyond Quantum Shannon: Circuit Construction for General n-Qubit Gates Based on Block ZXZ-Decomposition ( http://arxiv.org/abs/2403.13692v2 )

ライセンス: Link先を確認
Anna M. Krol, Zaid Al-Ars, (参考訳) 本稿では,2006年にShendeらによって導入された量子シャノン分解法(QSD)[27]よりも最適化された量子ブロックZXZ分解法[7,8,10]を提案する。 本手法は1量子ゲートと一様制御の回転Zゲートのみを用いるため,他の種類のマルチキュービットゲートにも容易に適用できる。 提案した分解により、19個のCNOTゲート(20個未満)を用いて、一般的な3ビットゲートを分解することができる。 一般的な$n$-qubitゲートに対して、提案した分解は、$\frac{22}{48}4^n - \frac{3}{2}2^n +\frac{5}{3}$ CNOTゲートを持つ回路を生成する。

This paper proposes a new optimized quantum block-ZXZ decomposition method [7,8,10] that results in more optimal quantum circuits than the quantum Shannon decomposition (QSD)[27], which was introduced in 2006 by Shende et al. The decomposition is applied recursively to generic quantum gates, and can take advantage of existing and future small-circuit optimizations. Because our method uses only one-qubit gates and uniformly controlled rotation-Z gates, it can easily be adapted to use other types of multi-qubit gates. With the proposed decomposition, a general 3-qubit gate can be decomposed using 19 CNOT gates (rather than 20). For general $n$-qubit gates, the proposed decomposition generates circuits that have $\frac{22}{48}4^n - \frac{3}{2}2^n +\frac{5}{3}$ CNOT gates, which is less that the best known exact decomposition algorithm by $(4^{n-2} -1)/3$ CNOT gates.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# HyperLedger Fabricの公正性評価のためのAdversary-Augmented Simulation

Adversary-Augmented Simulation to evaluate fairness on HyperLedger Fabric ( http://arxiv.org/abs/2403.14342v2 )

ライセンス: Link先を確認
Erwan Mahe, Rouwaida Abdallah, Sara Tucci-Piergiovanni, Pierre-Yves Piriou, (参考訳) 本稿では,ブロックチェーンネットワークのセキュリティ評価を目的とした,分散システムに特化した新たな敵モデルを提案する。 敵の仮定や目標,能力といった概念に基づいて,提案した敵のモデルは,障害モデルと通信モデルの両方で定義された古典的分散システムモデルに基づく敵の行動の使用を分類し,制約する。 本研究の目的は,これらの動作が分散プロトコルの特性に与える影響を,様々なシステムモデルで検討することである。 我々の研究の重要な側面は、この逆モデルをMulti-Agent eXperimenter (MAX)フレームワークに統合することである。 この統合により、ブロックチェーンネットワークに対する敵攻撃のきめ細かいシミュレーションが可能になる。 本稿では,Byzantine Fault Tolerant Tendermintコンセンサスアルゴリズムを用いて,Hyperledger Fabric上の4つの異なる公正性特性について検討する。 我々は,特定のクライアント・フェアネス特性に違反する目的で,両プロトコルの敵行為を組み合わせた新たな攻撃を定義する。 シミュレーションにより、このプロパティに違反する可能性を確認し、トランザクションの受信と配信の順序を関連づけた秩序公平性特性に対するこれらの攻撃の影響を評価することができる。

This paper presents a novel adversary model specifically tailored to distributed systems, aiming to assess the security of blockchain networks. Building upon concepts such as adversarial assumptions, goals, and capabilities, our proposed adversary model classifies and constrains the use of adversarial actions based on classical distributed system models, defined by both failure and communication models. The objective is to study the effects of these allowed actions on the properties of distributed protocols under various system models. A significant aspect of our research involves integrating this adversary model into the Multi-Agent eXperimenter (MAX) framework. This integration enables fine-grained simulations of adversarial attacks on blockchain networks. In this paper, we particularly study four distinct fairness properties on Hyperledger Fabric with the Byzantine Fault Tolerant Tendermint consensus algorithm being selected for its ordering service. We define novel attacks that combine adversarial actions on both protocols, with the aim of violating a specific client-fairness property. Simulations confirm our ability to violate this property and allow us to evaluate the impact of these attacks on several order-fairness properties that relate orders of transaction reception and delivery.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# HAC:3次元ガウス切削圧縮のためのハッシュグリッド支援コンテキスト

HAC: Hash-grid Assisted Context for 3D Gaussian Splatting Compression ( http://arxiv.org/abs/2403.14530v2 )

ライセンス: Link先を確認
Yihang Chen, Qianyi Wu, Jianfei Cai, Mehrtash Harandi, Weiyao Lin, (参考訳) 3D Gaussian Splatting (3DGS)は、新しいビュー合成のための有望なフレームワークとして登場し、高速レンダリング速度と高忠実さを誇っている。 しかし、ガウスとその関連属性は効果的な圧縮技術を必要とする。 それでも、ガウシアン(あるいは論文のアンカー)の点雲のスパースで非組織的な性質は、圧縮の課題を提示している。 そこで我々は,非組織型アンカーと構造化ハッシュグリッドの関係を利用して,それらの相互情報をコンテキストモデリングに活用し,高度にコンパクトな3DGS表現のためのHash-grid Assisted Context(HAC)フレームワークを提案する。 提案手法では, 連続的な空間的整合性を確立するための2値ハッシュグリッドを導入し, 慎重に設計した文脈モデルを用いて, アンカーの空間的関係を明らかにする。 エントロピー符号化を容易にするために,我々はガウス分布を用いて各量子化属性の確率を正確に推定する。 さらに,無効なガウスとアンカーを除去するために,適応的なマスキング戦略を取り入れた。 重要なことは、我々の研究は3DGS表現の文脈ベースの圧縮を探求する先駆者であり、その結果、バニラ3DGSと比較して75ドル以上のコスト削減が達成され、同時に忠実度が向上し、SOTA3DGS圧縮アプローチであるScaffold-GSよりも11ドル以上のコスト削減が達成された。 私たちのコードはこちらで入手可能です。

3D Gaussian Splatting (3DGS) has emerged as a promising framework for novel view synthesis, boasting rapid rendering speed with high fidelity. However, the substantial Gaussians and their associated attributes necessitate effective compression techniques. Nevertheless, the sparse and unorganized nature of the point cloud of Gaussians (or anchors in our paper) presents challenges for compression. To address this, we make use of the relations between the unorganized anchors and the structured hash grid, leveraging their mutual information for context modeling, and propose a Hash-grid Assisted Context (HAC) framework for highly compact 3DGS representation. Our approach introduces a binary hash grid to establish continuous spatial consistencies, allowing us to unveil the inherent spatial relations of anchors through a carefully designed context model. To facilitate entropy coding, we utilize Gaussian distributions to accurately estimate the probability of each quantized attribute, where an adaptive quantization module is proposed to enable high-precision quantization of these attributes for improved fidelity restoration. Additionally, we incorporate an adaptive masking strategy to eliminate invalid Gaussians and anchors. Importantly, our work is the pioneer to explore context-based compression for 3DGS representation, resulting in a remarkable size reduction of over $75\times$ compared to vanilla 3DGS, while simultaneously improving fidelity, and achieving over $11\times$ size reduction over SOTA 3DGS compression approach Scaffold-GS. Our code is available here: https://github.com/YihangChen-ee/HAC
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# EDT:エントロピーに基づく動的温度サンプリングによる大規模言語モデル生成の改善

EDT: Improving Large Language Models' Generation by Entropy-based Dynamic Temperature Sampling ( http://arxiv.org/abs/2403.14541v2 )

ライセンス: Link先を確認
Shimao Zhang, Yu Bao, Shujian Huang, (参考訳) 近年,Large Language Models (LLMs) は下流言語タスクにおいて,優れた性能を発揮している。 温度サンプリングは、LLMの生成プロセスにおいて一般的に用いられる復号法である。 しかし、ほとんどのケースでは温度パラメータが固定されているため、生成品質と多様性のバランスをとるのに最適ではないかもしれない。 本稿では,効率的なエントロピーに基づく動的温度サンプリング法を提案し,温度パラメータを動的に選択することで,生成品質と多様性の両面でよりバランスのとれた性能を実現する。 さらに,4つの世代ベンチマークのモデル性能と包括的解析について述べる。 我々の実験によると、EDTは様々なタスクで既存の戦略を著しく上回ります。

Recently, Large Language Models (LLMs) have demonstrated outstanding performance across a wide range of downstream language tasks. Temperature sampling is a commonly used decoding strategy for LLMs' generation process. However, a fixed temperature parameter is used in most cases, which may not always be an optimal choice for balancing generation quality and diversity. In this paper, we propose an effective Entropy-based Dynamic Temperature (EDT) Sampling method, to achieve a more balanced performance in terms of both generation quality and diversity by dynamically selecting the temperature parameter. Additionally, we also show model performance and comprehensive analyses for 4 different generation benchmarks. Our experiments show that EDT significantly outperforms the existing strategies across different tasks.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# グローバル、ロバスト、および同等のデジタル炭素資産

Global, robust and comparable digital carbon assets ( http://arxiv.org/abs/2403.14581v2 )

ライセンス: Link先を確認
Sadiq Jaffer, Michael Dales, Patrick Ferris, Thomas Swinfield, Derek Sorensen, Robin Message, Srinivasan Keshav, Anil Madhavapeddy, (参考訳) 自発的な炭素市場で購入された炭素クレジットは、国際飛行や本質的な旅行などの避けられない排出を、熱帯の森林破壊からの排出を避けるなど、同等の気候上の利益によって相殺することができる。 しかし、これらの相反する主張の信頼性に関する多くの懸念が提起されている。 さらに、信用市場は手動であり、従って非効率で、計算不可能であり、従って不正である。 これらの課題に対処するために, リモートセンシングデータ, 現代のエコノメトリ技術, およびオンチェーン認証とトレーディングを組み合わせて, カーボンオフセット要求を透過的に検証できる新しいデジタルカーボン資産(PACTステーブルコイン)を創出する効率的なディジタル方法論を提案する。 PACT安定コイルは、CO2排出量の定量化だけでなく、生物多様性や管轄的属性などの共益に基づいて、類似のクレジットをプール内での楽しさを通じて流動性を高めることができるカーボンオフセットプロジェクトの気候効果を推定するための再現可能な計算パイプラインからの出力として生産される。 我々は,環境への影響を最小限に抑えつつ,低コストな取引を容易にするように設計されたTezosブロックチェーン上で,PACT炭素安定層を実装し,評価する。 私たちの実装には、発行、所有権、クレジットの廃止を追跡するレジストリの契約と、オンチェーンおよびオフチェーントランザクションをブリッジするカストディアン契約が含まれています。 我々の研究は、高完全性な炭素クレジット取引のための透明でスケーラブルで効率的なフレームワークを提供することで、自発的な炭素市場へのスケールと信頼をもたらします。

Carbon credits purchased in the voluntary carbon market allow unavoidable emissions, such as from international flights for essential travel, to be offset by an equivalent climate benefit, such as avoiding emissions from tropical deforestation. However, many concerns regarding the credibility of these offsetting claims have been raised. Moreover, the credit market is manual, therefore inefficient and unscalable, and non-fungible, therefore illiquid. To address these issues, we propose an efficient digital methodology that combines remote sensing data, modern econometric techniques, and on-chain certification and trading to create a new digital carbon asset (the PACT stablecoin) against which carbon offsetting claims can be transparently verified. PACT stablecoins are produced as outputs from a reproducible computational pipeline for estimating the climate benefits of carbon offset projects that not only quantifies the CO2 emissions involved, but also allows for similar credits to be pooled based on their co-benefits such as biodiversity and jurisdictional attributes, increasing liquidity through fungibility within pools. We implement and evaluate the PACT carbon stablecoin on the Tezos blockchain, which is designed to facilitate low-cost transactions while minimizing environmental impact. Our implementation includes a contract for a registry for tracking issuance, ownership, and retirement of credits, and a custodian contract to bridge on-chain and off-chain transactions. Our work brings scale and trust to the voluntary carbon market by providing a transparent, scalable, and efficient framework for high integrity carbon credit transactions.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# MasonTigers at SemEval-2024 Task 9: Solving Puzzles with a Ensemble of Chain-of-Thoughts (英語)

MasonTigers at SemEval-2024 Task 9: Solving Puzzles with an Ensemble of Chain-of-Thoughts ( http://arxiv.org/abs/2403.14982v2 )

ライセンス: Link先を確認
Md Nishat Raihan, Dhiman Goswami, Al Nahian Bin Emran, Sadiya Sayara Chowdhury Puspo, Amrita Ganguly, Marcos Zampieri, (参考訳) 本稿では,SemEval-2024 Task 9 に対する MasonTigers チームによる提案について述べる。 我々は,いくつかのプロンプト手法を用いて,この課題を解決するために,大規模言語モデル (LLM) を用いる。 ゼロショットと少数ショットのプロンプトは、オープンソースモデルと比較して、プロプライエタリなLLMでテストすると合理的に良い結果をもたらす。 推論過程を段階的に分解する反復的プロンプト法であるチェーン・オブ・シークレット・プロンプトを用いて、さらに改良された結果を得る。 提案手法は,「パズルサブタスク」と「パズルサブタスク」の2番目と「パズルサブタスク」の13番目である。 LLMの強い性能は、思考過程を分解するときに複雑な推論能力を示す。 私たちの研究は、ステップワイズな説明プロンプトが、大規模モデルのパラメータにエンコードされた知識を解き放つ方法に光を当てています。

Our paper presents team MasonTigers submission to the SemEval-2024 Task 9 - which provides a dataset of puzzles for testing natural language understanding. We employ large language models (LLMs) to solve this task through several prompting techniques. Zero-shot and few-shot prompting generate reasonably good results when tested with proprietary LLMs, compared to the open-source models. We obtain further improved results with chain-of-thought prompting, an iterative prompting method that breaks down the reasoning process step-by-step. We obtain our best results by utilizing an ensemble of chain-of-thought prompts, placing 2nd in the word puzzle subtask and 13th in the sentence puzzle subtask. The strong performance of prompted LLMs demonstrates their capability for complex reasoning when provided with a decomposition of the thought process. Our work sheds light on how step-wise explanatory prompts can unlock more of the knowledge encoded in the parameters of large models.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# 時系列予測のためのグレーインフォームドニューラルネットワーク

Grey-informed neural network for time-series forecasting ( http://arxiv.org/abs/2403.15027v2 )

ライセンス: Link先を確認
Wanli Xie, Ruibin Zhao, Zhenguo Xu, Tingting Liang, (参考訳) ニューラルネットワークモデルは、様々な分野における複雑な問題に対する優れた性能と解決方法を示してきた。 しかしながら、これらのモデルのほとんどはブラックボックスと見なされており、開発にはかなりの量のデータが必要である。 したがって、限られたデータを持つ状況では、データの透明性や不足のため、適切なモデルの構築が困難になる。 これらの課題に対処するために、グレーインフォームドニューラルネットワーク(GINN)の実装を提案する。 GINNは、ニューラルネットワークの出力がグレーシステムの微分方程式モデルに従うことを保証し、解釈可能性を向上させる。 さらに、灰色のシステム理論からの事前知識を取り入れることで、従来のニューラルネットワークは小さなデータサンプルを効果的に処理できる。 提案手法は,実世界の基盤となるパターンを解明し,実証データに基づいて信頼性の高い予測を行う。

Neural network models have shown outstanding performance and successful resolutions to complex problems in various fields. However, the majority of these models are viewed as black-box, requiring a significant amount of data for development. Consequently, in situations with limited data, constructing appropriate models becomes challenging due to the lack of transparency and scarcity of data. To tackle these challenges, this study suggests the implementation of a grey-informed neural network (GINN). The GINN ensures that the output of the neural network follows the differential equation model of the grey system, improving interpretability. Moreover, incorporating prior knowledge from grey system theory enables traditional neural networks to effectively handle small data samples. Our proposed model has been observed to uncover underlying patterns in the real world and produce reliable forecasts based on empirical data.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# AllHands: 大規模言語モデルによる大規模言語フィードバックについて質問する

AllHands: Ask Me Anything on Large-scale Verbatim Feedback via Large Language Models ( http://arxiv.org/abs/2403.15157v2 )

ライセンス: Link先を確認
Chaoyun Zhang, Zicheng Ma, Yuhao Wu, Shilin He, Si Qin, Minghua Ma, Xiaoting Qin, Yu Kang, Yuyi Liang, Xiaoyu Gou, Yajie Xue, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, (参考訳) Verbatimのフィードバックは、ソフトウェア開発に不可欠なユーザエクスペリエンス、意見、要求の貴重なリポジトリを構成する。 このようなデータから価値ある洞察を効果的かつ効率的に抽出することは、難しい課題となる。 本稿では,大規模言語モデル(LLM)を活用した,自然言語インタフェースによる大規模フィードバック分析のための革新的な分析フレームワークであるAllhandsを紹介する。 Allhandsは従来のフィードバック分析ワークフローに固執し、最初は分類とトピックモデリングを行い、それらを構造的に拡張されたフォーマットに変換し、正確性、堅牢性、一般化、ユーザフレンドリ性を高めるためにLSMを組み込んだ。 その後、LLMエージェントを使用して、自然言語のさまざまな質問を自然言語で解釈し、実行のためにPythonコードに翻訳し、テキスト、コード、テーブル、イメージを含む包括的なマルチモーダルレスポンスを提供する。 Allhandsを3つの多様なフィードバックデータセットで評価する。 実験により、Allhandsは、分類やトピックモデリングを含む分析のあらゆる段階で優れた効果を達成し、最終的には、包括的で、正しい、そして、人間が読める応答をユーザに提供する。 私たちの知識を最大限に活用するために、Allhandsは、自然言語インターフェースを通じて洞察抽出のための多様でカスタマイズされた要求をサポートする、初めての総合的なフィードバック分析フレームワークである。

Verbatim feedback constitutes a valuable repository of user experiences, opinions, and requirements essential for software development. Effectively and efficiently extracting valuable insights from such data poses a challenging task. This paper introduces Allhands , an innovative analytic framework designed for large-scale feedback analysis through a natural language interface, leveraging large language models (LLMs). Allhands adheres to a conventional feedback analytic workflow, initially conducting classification and topic modeling on the feedback to convert them into a structurally augmented format, incorporating LLMs to enhance accuracy, robustness, generalization, and user-friendliness. Subsequently, an LLM agent is employed to interpret users' diverse questions in natural language on feedback, translating them into Python code for execution, and delivering comprehensive multi-modal responses, including text, code, tables, and images. We evaluate Allhands across three diverse feedback datasets. The experiments demonstrate that Allhands achieves superior efficacy at all stages of analysis, including classification and topic modeling, eventually providing users with an "ask me anything" experience with comprehensive, correct and human-readable response. To the best of our knowledge, Allhands stands as the first comprehensive feedback analysis framework that supports diverse and customized requirements for insight extraction through a natural language interface.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# 胸部X線写真における放射線所見の可視化によるGPT-4の評価

Evaluating GPT-4 with Vision on Detection of Radiological Findings on Chest Radiographs ( http://arxiv.org/abs/2403.15528v2 )

ライセンス: Link先を確認
Yiliang Zhou, Hanley Ong, Patrick Kennedy, Carol Wu, Jacob Kazam, Keith Hentel, Adam Flanders, George Shih, Yifan Peng, (参考訳) 本研究は,100個の胸部X線写真から放射線学的所見を検出するためのマルチモーダルな大規模言語モデルであるGPT-4Vの応用について検討し,GPT-4Vは現在,胸部X線画像の解釈において現実的な診断の準備ができていないことを示唆している。

The study examines the application of GPT-4V, a multi-modal large language model equipped with visual recognition, in detecting radiological findings from a set of 100 chest radiographs and suggests that GPT-4V is currently not ready for real-world diagnostic usage in interpreting chest radiographs.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# LCSH科目におけるChatGPTの使用実験

An Experiment with the Use of ChatGPT for LCSH Subject Assignment on Electronic Theses and Dissertations ( http://arxiv.org/abs/2403.16424v2 )

ライセンス: Link先を確認
Eric H. C. Chow, TJ Kao, Xiaoli Li, (参考訳) 本研究は,Large Language Models (LLMs) をLCSH(Community of Congress Subject Headings) に活用することを目的としたものである。 著者らはChatGPTを使用して、タイトルと要約に基づいて電子的論文や論文(ETD)の主題的見出しを生成する。 その結果, 生成した被験者の見出しは有効であったが, 具体性や消耗性に問題があることがわかった。 この研究は、LCSHを迅速に生成するためのコスト効率の良いアプローチも提供しながら、学術図書館でカタログ化を待っている項目のバックログに対する戦略的応答として機能することを示します。 それでも、LCSHの妥当性、徹底性、特異性を検証するためには、人間のカタログは依然として不可欠である。

This study delves into the potential use of Large Language Models (LLMs) for generating Library of Congress Subject Headings (LCSH). The authors employed ChatGPT to generate subject headings for electronic theses and dissertations (ETDs) based on their titles and summaries. The results revealed that although some generated subject headings were valid, there were issues regarding specificity and exhaustiveness. The study showcases that LLMs can serve as a strategic response to the backlog of items awaiting cataloging in academic libraries, while also offering a cost-effective approach for promptly generating LCSH. Nonetheless, human catalogers remain essential for verifying and enhancing the validity, exhaustiveness, and specificity of LCSH generated by LLMs.
翻訳日:2024-04-04 21:48:26 公開日:2024-04-03
# 多モーダル大言語モデルにおける単モーダルビアーゼの定量化と緩和:因果的視点

Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective ( http://arxiv.org/abs/2403.18346v3 )

ライセンス: Link先を確認
Meiqi Chen, Yixin Cao, Yan Zhang, Chaochao Lu, (参考訳) 近年,Large Language Models (LLMs) が発展し,MLLM (Multimodal LLMs) の開発が進められている。 その印象的な能力にもかかわらず、MLLMは不動バイアス(例えば言語バイアスや視覚バイアス)の過度な信頼性に悩まされ、複雑なマルチモーダルタスクにおける誤った回答につながる。 本稿では,視覚質問応答(VQA)問題におけるバイアスを解析するための因果的枠組みを提案する。 本稿では,VQA問題におけるMLLMの予測を解明するための因果グラフを考案し,詳細な因果解析によりバイアスの因果効果を評価する。 因果グラフに触発され、12,000のVQAインスタンスからなる新しいMOREデータセットを導入する。 このデータセットは、MLLMの能力に挑戦し、マルチホップ推論を必要とし、ユニモーダルバイアスを克服するように設計されている。 さらに,限定アクセス型MLLMのためのDeVA(Decompose-Verify-Answer)フレームワークや,微調整によるオープンソースのMLLMの改良など,MLLMの推論能力を向上させるための2つの戦略を提案する。 大規模で質的な実験は、将来の研究に貴重な洞察を与える。 私たちのプロジェクトページはhttps://opencausalab.github.io/MOREです。

Recent advancements in Large Language Models (LLMs) have facilitated the development of Multimodal LLMs (MLLMs). Despite their impressive capabilities, MLLMs often suffer from an over-reliance on unimodal biases (e.g., language bias and vision bias), leading to incorrect answers in complex multimodal tasks. To investigate this issue, we propose a causal framework to interpret the biases in Visual Question Answering (VQA) problems. Within our framework, we devise a causal graph to elucidate the predictions of MLLMs on VQA problems, and assess the causal effect of biases through an in-depth causal analysis. Motivated by the causal graph, we introduce a novel MORE dataset, consisting of 12,000 VQA instances. This dataset is designed to challenge MLLMs' abilities, necessitating multi-hop reasoning and the surmounting of unimodal biases. Furthermore, we propose two strategies to mitigate unimodal biases and enhance MLLMs' reasoning capabilities, including a Decompose-Verify-Answer (DeVA) framework for limited-access MLLMs and the refinement of open-source MLLMs through fine-tuning. Extensive quantitative and qualitative experiments offer valuable insights for future research. Our project page is at https://opencausalab.github.io/MORE.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-03
# 人間のフィードバックによるアライメントの学習ダイナミクスの理解

Understanding the Learning Dynamics of Alignment with Human Feedback ( http://arxiv.org/abs/2403.18742v2 )

ライセンス: Link先を確認
Shawn Im, Yixuan Li, (参考訳) 大規模言語モデル(LLM)を人間の意図で調整することは、現実世界のシステムにモデルを安全にデプロイするための重要なタスクとなっている。 既存のアライメントアプローチは経験的な成功を見てきたが、これらの手法がモデル行動にどのように影響するか理論的に理解することは未解決の問題である。 我々の研究は、人間の嗜好アライメントの学習力学を理論的に解析するための最初の試みである。 本稿では,嗜好データセットの分布がモデル更新率にどのように影響するかを正式に示すとともに,トレーニング精度に厳密な保証を与える。 我々の理論はまた、最適化がより高い選好性で特定の振る舞いを優先順位付けする傾向がある複雑な現象も明らかにしている。 我々は、現代のLCMとアライメントタスクに関する知見を実証的に検証し、理論的な洞察を強化し、将来のアライメントアプローチの考察に光を当てる。 Disclaimer: この論文には攻撃的なテキストが含まれており、読者の判断は推奨される。

Aligning large language models (LLMs) with human intentions has become a critical task for safely deploying models in real-world systems. While existing alignment approaches have seen empirical success, theoretically understanding how these methods affect model behavior remains an open question. Our work provides an initial attempt to theoretically analyze the learning dynamics of human preference alignment. We formally show how the distribution of preference datasets influences the rate of model updates and provide rigorous guarantees on the training accuracy. Our theory also reveals an intricate phenomenon where the optimization is prone to prioritizing certain behaviors with higher preference distinguishability. We empirically validate our findings on contemporary LLMs and alignment tasks, reinforcing our theoretical insights and shedding light on considerations for future alignment approaches. Disclaimer: This paper contains potentially offensive text; reader discretion is advised.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-03
# 教師なしUniversal Dependency Parse Tree Aggregationの実証解析

Empirical Analysis for Unsupervised Universal Dependency Parse Tree Aggregation ( http://arxiv.org/abs/2403.19183v2 )

ライセンス: Link先を確認
Adithya Kulkarni, Oliver Eulenstein, Qi Li, (参考訳) 依存性解析はNLPにおいて必須のタスクであり、多くの下流タスクでは依存性解析の質が不可欠である。 パーサーの品質はドメインや関連する言語によって異なります。 したがって、安定した性能を達成するためには、様々な品質の問題に対処することが不可欠である。 様々なNLPタスクにおいて、アグリゲーション法は後処理のアグリゲーションに使われ、様々な品質の問題に対処することが示されている。 しかし, 処理後アグリゲーションのためのアグリゲーション手法は, 依存解析タスクにおいて十分に研究されていない。 広範にわたる実証研究において、教師なし後処理集約法を比較し、最も適した依存木構造集約法を同定する。

Dependency parsing is an essential task in NLP, and the quality of dependency parsers is crucial for many downstream tasks. Parsers' quality often varies depending on the domain and the language involved. Therefore, it is essential to combat the issue of varying quality to achieve stable performance. In various NLP tasks, aggregation methods are used for post-processing aggregation and have been shown to combat the issue of varying quality. However, aggregation methods for post-processing aggregation have not been sufficiently studied in dependency parsing tasks. In an extensive empirical study, we compare different unsupervised post-processing aggregation methods to identify the most suitable dependency tree structure aggregation method.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-03
# 時変信号再構成のためのゲゲンバウアーグラフニューラルネットワーク

Gegenbauer Graph Neural Networks for Time-varying Signal Reconstruction ( http://arxiv.org/abs/2403.19800v2 )

ライセンス: Link先を確認
Jhon A. Castro-Correa, Jhony H. Giraldo, Mohsen Badiey, Fragkiskos D. Malliaros, (参考訳) 時間変化グラフ信号(あるいはグラフ時系列計算)の再構成は、センサネットワークにおけるデータ計算の欠如から時系列予測に至るまで、幅広いアプリケーションで機械学習と信号処理を行う上で重要な問題である。 これらの信号に固有の時空間情報の正確な取得は、これらの課題に効果的に対処するために重要である。 しかし、時間差の滑らかさを前提とした既存手法や単純な凸最適化手法には固有の制限がある。 これらの課題に対処するため、下流タスクの精度を高めるために学習モジュールを組み込んだ新しいアプローチを提案する。 この目的のために、ゲゲンバウアー型グラフ畳み込み作用素(GegenConv)を導入し、ゲゲンバウアー多項式の理論を利用して従来のチェビシェフグラフ畳み込みを一般化する。 従来の凸問題から逸脱することで、モデルの複雑さを拡大し、時間変化のあるグラフ信号を復元するためのより正確なソリューションを提供する。 GegenConvに基づいて、エンコーダデコーダ構造を採用したGegenbauerベースの時間グラフニューラルネットワーク(GegenGNN)アーキテクチャを設計する。 また,本手法では,ソボレフの滑らか度正規化とともに平均二乗誤差成分を組み込んだ専用損失関数も利用している。 この組み合わせにより、GegenGNNは、真理と信号の基本的な滑らか性の両方をキャプチャし、再構成性能を向上させることができる。 提案手法の有効性を評価するために,実データセットに関する広範な実験を行った。 実験の結果、GegenGNNは最先端の手法よりも優れており、時間変動グラフ信号の回復に優れた能力を示している。

Reconstructing time-varying graph signals (or graph time-series imputation) is a critical problem in machine learning and signal processing with broad applications, ranging from missing data imputation in sensor networks to time-series forecasting. Accurately capturing the spatio-temporal information inherent in these signals is crucial for effectively addressing these tasks. However, existing approaches relying on smoothness assumptions of temporal differences and simple convex optimization techniques have inherent limitations. To address these challenges, we propose a novel approach that incorporates a learning module to enhance the accuracy of the downstream task. To this end, we introduce the Gegenbauer-based graph convolutional (GegenConv) operator, which is a generalization of the conventional Chebyshev graph convolution by leveraging the theory of Gegenbauer polynomials. By deviating from traditional convex problems, we expand the complexity of the model and offer a more accurate solution for recovering time-varying graph signals. Building upon GegenConv, we design the Gegenbauer-based time Graph Neural Network (GegenGNN) architecture, which adopts an encoder-decoder structure. Likewise, our approach also utilizes a dedicated loss function that incorporates a mean squared error component alongside Sobolev smoothness regularization. This combination enables GegenGNN to capture both the fidelity to ground truth and the underlying smoothness properties of the signals, enhancing the reconstruction performance. We conduct extensive experiments on real datasets to evaluate the effectiveness of our proposed approach. The experimental results demonstrate that GegenGNN outperforms state-of-the-art methods, showcasing its superior capability in recovering time-varying graph signals.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-03
# IndiBias:インドにおける言語モデルにおける社会的バイアスを測定するベンチマークデータセット

IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context ( http://arxiv.org/abs/2403.20147v2 )

ライセンス: Link先を確認
Nihar Ranjan Sahoo, Pranamya Prashant Kulkarni, Narjis Asad, Arif Ahmad, Tanu Goyal, Aparna Garimella, Pushpak Bhattacharyya, (参考訳) 言語データにおける社会的バイアスの広範的影響により、大規模言語モデル(LLM)において、これらのバイアスをキャプチャして評価するベンチマークデータセットの必要性が高まった。 既存の努力は主に英語と西洋の文脈に焦点を当てており、インド固有の社会文化的ニュアンスをカプセル化した信頼性の高いデータセットの空白を残している。 このギャップを埋めるために、インドにおける社会的バイアスを評価するために特別に設計された包括的なベンチマークデータセットであるIndiBiasを紹介します。 我々は、既存のCrowS-Pairsデータセットをフィルタリングして、ヒンディー語におけるインドの文脈に適したベンチマークデータセットを作成する。 さらに、ChatGPTやInstructGPTといったLCMを活用して、インドで広く普及している多様な社会的バイアスとステレオタイプでデータセットを拡大します。 バイアスの次元には、性別、宗教、キャスト、年齢、地域、身体的外観、職業が含まれる。 また、3つの交叉次元に沿った交叉バイアスに対処するリソースも構築する。 私たちのデータセットには800の文対と300のタプルが含まれています。 データセットは英語とHindiで利用可能で、既存のベンチマークデータセットに匹敵するサイズを提供する。 さらに、IndiBiasを使用して、複数のバイアス測定メトリクスで10の異なる言語モデルを比較します。 その結果,言語モデルでは,交叉群の大部分に偏りが認められた。

The pervasive influence of social biases in language data has sparked the need for benchmark datasets that capture and evaluate these biases in Large Language Models (LLMs). Existing efforts predominantly focus on English language and the Western context, leaving a void for a reliable dataset that encapsulates India's unique socio-cultural nuances. To bridge this gap, we introduce IndiBias, a comprehensive benchmarking dataset designed specifically for evaluating social biases in the Indian context. We filter and translate the existing CrowS-Pairs dataset to create a benchmark dataset suited to the Indian context in Hindi language. Additionally, we leverage LLMs including ChatGPT and InstructGPT to augment our dataset with diverse societal biases and stereotypes prevalent in India. The included bias dimensions encompass gender, religion, caste, age, region, physical appearance, and occupation. We also build a resource to address intersectional biases along three intersectional dimensions. Our dataset contains 800 sentence pairs and 300 tuples for bias measurement across different demographics. The dataset is available in English and Hindi, providing a size comparable to existing benchmark datasets. Furthermore, using IndiBias we compare ten different language models on multiple bias measurement metrics. We observed that the language models exhibit more bias across a majority of the intersectional groups.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-03
# 量子回路欠陥がネットワークおよびコンピュータ応用に与える影響のモデル化

Modelling the Impact of Quantum Circuit Imperfections on Networks and Computer Applications ( http://arxiv.org/abs/2404.00062v2 )

ライセンス: Link先を確認
Savo Glisic, (参考訳) ポスト量子および量子暗号スキームは、7Gネットワークのための実現可能な量子コンピュータアプリケーションである。 これらのスキームは、既存のスキームを置き換える可能性がある。 これらのアルゴリズムは、Shorアルゴリズムのような量子コンピュータ上で動作する量子検索アルゴリズムの進歩によって妥協された。 Shorアルゴリズムは、既存のアルゴリズムの基礎となる整数の素因子を見つけるための量子アルゴリズムである。 これはESAアルゴリズムを危険にさらすために利用可能な量子コンピュータアプリケーションとなった。 最近の論文では、7Gネットワークにおける量子および量子暗号アルゴリズムの適用性に着目したポスト量子および量子暗号アルゴリズムの研究について詳細に調査している。 本論文では、暗号アルゴリズムを追従するものとして、量子ネットワーク最適化のための新しいフレームワークを提供し、7Gにおける量子ハードウェアの最も重要な部分を含む、これらのアルゴリズムの実用的な実装のための技術(量子ハードウェア)の実現に向けた研究を詳細に調査する。 エンジニアリングの実践ではいつものように、実践的なソリューションは、実装のパフォーマンスと複雑さを妥協させるものです。 そこで本研究では,実装の不完全性を含むネットワークおよびコンピュータアプリケーション最適化フレームワークを提案する。 このツールは、次世代の実用的なコンピュータシステム設計を最適化するのに有用である。 その後、量子ハードウェアに関する既存の研究を包括的に調査し、これらの不完全性の原因を指摘した。 これにより、量子ハードウェアの改善に対する投資がシステム全体のパフォーマンス向上にどの程度貢献するかを公平に評価することができる。 このようにして、ハードウェアへの投資とシステムレベルの複雑さの間の適切なパーティショニングを決定することができる。

Post Quantum and Quantum Cryptography schemes are feasible quantum computer applications for 7G networks. These schemes could possibly replace existing schemes. These algorithms have been compromised by advances in quantum search algorithms run on quantum computers like Shor algorithm. Shor algorithm is a quantum algorithm for finding the prime factors of an integer which is the basis of existing algorithm. This has become an available quantum computer application putting the use of ESA algorithm at risk. Our recent paper provides a detailed survey of the work on post quantum and quantum cryptography algorithms with focus on their applicability in 7G networks. Since the paper focuses on the cryptography algorithms as a follow up, in this paper, we provide a new framework for quantum network optimization and survey in detail the work on enabling technologies (quantum hardware) for the practical implementation of these algorithms including the most important segments of quantum hardware in 7G. As always in engineering practice practical solutions are a compromise between the performance and complexity of the implementation. For this reason, as the main contribution, the paper presents a network and computer applications optimization framework that includes implementation imperfections. The tools should be useful in optimizing future generation practical computer system design. After that a comprehensive survey of the existing work on quantum hardware is presented pointing out the sources of these imperfections. This enables us to make a fair assessment of how much investment into quantum hardware improvements contributes to the performance enhancement of the overall system. In this way a decision can be made on proper partitioning between the investment in hardware and system level complexity.
翻訳日:2024-04-04 21:38:27 公開日:2024-04-03
# 視線と視線パターンを持つ言語モデルを用いた胸部X線解析におけるヒューマン・コンピュータインタラクションの促進

Enhancing Human-Computer Interaction in Chest X-ray Analysis using Vision and Language Model with Eye Gaze Patterns ( http://arxiv.org/abs/2404.02370v1 )

ライセンス: Link先を確認
Yunsoo Kim, Jinge Wu, Yusuf Abdulle, Yue Gao, Honghan Wu, (参考訳) 近年のコンピュータ支援診断の進歩は、特に胸部X線分析において、医用画像のタスクにおいて有望な性能を示している。 しかし、これらのモデルと放射線学者の相互作用は主に入力画像に限られている。 本研究では,視覚言語モデル(VLM)を用いた胸部X線解析における人-コンピュータ間相互作用の促進手法を提案する。 本手法では, 眼球画像から得られた熱マップを医用画像上にオーバーレイし, 胸部X線検査における放射線技師の集中領域を明らかにする。 我々は,視覚的質問応答,胸部X線レポートの自動化,エラー検出,鑑別診断などのタスクにおいて,この手法を評価する。 以上の結果より,視線情報を含めることで胸部X線解析の精度が著しく向上することが示唆された。 また、視線が微調整に与える影響は、視覚的質問応答以外の全てのタスクにおいて、他の医療用VLMよりも優れていたことが確認された。 この研究は、医用画像におけるAIモデルの能力を改善するために、VLMの能力と放射線技師のドメイン知識の両方を活用する可能性を示す。

Recent advancements in Computer Assisted Diagnosis have shown promising performance in medical imaging tasks, particularly in chest X-ray analysis. However, the interaction between these models and radiologists has been primarily limited to input images. This work proposes a novel approach to enhance human-computer interaction in chest X-ray analysis using Vision-Language Models (VLMs) enhanced with radiologists' attention by incorporating eye gaze data alongside textual prompts. Our approach leverages heatmaps generated from eye gaze data, overlaying them onto medical images to highlight areas of intense radiologist's focus during chest X-ray evaluation. We evaluate this methodology in tasks such as visual question answering, chest X-ray report automation, error detection, and differential diagnosis. Our results demonstrate the inclusion of eye gaze information significantly enhances the accuracy of chest X-ray analysis. Also, the impact of eye gaze on fine-tuning was confirmed as it outperformed other medical VLMs in all tasks except visual question answering. This work marks the potential of leveraging both the VLM's capabilities and the radiologist's domain knowledge to improve the capabilities of AI models in medical imaging, paving a novel way for Computer Assisted Diagnosis with a human-centred AI.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# 難読マルウェア検出:メモリ分析による実世界のシナリオの調査

Obfuscated Malware Detection: Investigating Real-world Scenarios through Memory Analysis ( http://arxiv.org/abs/2404.02372v1 )

ライセンス: Link先を確認
S M Rakib Hasan, Aakar Dhakal, (参考訳) インターネットやスマートデバイスの時代、マルウェアの検出はシステムのセキュリティにとって重要になっている。 マルウェアの作者は、高度なセキュリティソリューションを避けるために難読化技術を採用しており、脅威を検出して排除することは困難である。 隠れたマルウェアは、コンピュータ、モバイルデバイス、IoTデバイスなど、さまざまなプラットフォームに重大なリスクをもたらす。 ヒューリスティックベースのシステムやシグネチャベースのシステムのような従来の手法は、システムに識別可能な痕跡を残していないため、この種のマルウェアと競合する。 本研究では,多様な機械学習アルゴリズムを用いて,メモリダンプ解析による簡易かつ費用対効果の高いマルウェア検出システムを提案する。 この研究は、実際のシナリオをシミュレートし、メモリベースの難読化マルウェア検出を評価するために設計されたCIC-MalMem-2022データセットに焦点を当てている。 メモリダンプ内の難読化マルウェアの検出において,決定木,アンサンブル法,ニューラルネットワークなどの機械学習アルゴリズムの有効性を評価する。 我々の分析は、アルゴリズムの強みと制限に関する洞察を提供する複数のマルウェアカテゴリにまたがっている。 メモリ分析による難読化マルウェア検出のための機械学習アルゴリズムの包括的評価を提供することにより、サイバーセキュリティを強化し、進化的で洗練されたマルウェアの脅威に対してデジタルエコシステムを強化するための継続的な取り組みに寄与する。 ソースコードは再現性と将来の研究活動のためにオープンアクセスされている。 https://bit.ly/MalMemCodeでアクセスできる。

In the era of the internet and smart devices, the detection of malware has become crucial for system security. Malware authors increasingly employ obfuscation techniques to evade advanced security solutions, making it challenging to detect and eliminate threats. Obfuscated malware, adept at hiding itself, poses a significant risk to various platforms, including computers, mobile devices, and IoT devices. Conventional methods like heuristic-based or signature-based systems struggle against this type of malware, as it leaves no discernible traces on the system. In this research, we propose a simple and cost-effective obfuscated malware detection system through memory dump analysis, utilizing diverse machine-learning algorithms. The study focuses on the CIC-MalMem-2022 dataset, designed to simulate real-world scenarios and assess memory-based obfuscated malware detection. We evaluate the effectiveness of machine learning algorithms, such as decision trees, ensemble methods, and neural networks, in detecting obfuscated malware within memory dumps. Our analysis spans multiple malware categories, providing insights into algorithmic strengths and limitations. By offering a comprehensive assessment of machine learning algorithms for obfuscated malware detection through memory analysis, this paper contributes to ongoing efforts to enhance cybersecurity and fortify digital ecosystems against evolving and sophisticated malware threats. The source code is made open-access for reproducibility and future research endeavours. It can be accessed at https://bit.ly/MalMemCode.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# ネパール・ベンガルにおける光テキスト認識 : トランスフォーマーによるアプローチ

Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach ( http://arxiv.org/abs/2404.02375v1 )

ライセンス: Link先を確認
S M Rakib Hasan, Aakar Dhakal, Md Humaion Kabir Mehedi, Annajiat Alim Rasel, (参考訳) 低リソース言語のためのOCRシステムの研究と開発への取り組みは、比較的新しいものである。 低リソース言語は、機械翻訳システムや他のシステムのトレーニングのためのトレーニングデータをほとんど持っていない。 大量のテキストがデジタル化され、インターネット上で利用できるようになったが、テキストはまだPDFと画像フォーマットであり、すぐにはアクセスできない。 本稿では,ベンガル語とネパール語という2つの文字のテキスト認識について論じる。 本研究では,エンコーダ・デコーダ変換器を用いてモデルを構築し,手書き・印刷ともに光学テキスト画像の集合を用いて評価を行った。 その結果,提案手法は現在のアプローチと一致し,ベンガル語とネパール語におけるテキスト認識の精度が高いことが示唆された。 本研究は,東南アジアにおける言語学の先進的かつアクセシブルな研究の道を開くことができる。

Efforts on the research and development of OCR systems for Low-Resource Languages are relatively new. Low-resource languages have little training data available for training Machine Translation systems or other systems. Even though a vast amount of text has been digitized and made available on the internet the text is still in PDF and Image format, which are not instantly accessible. This paper discusses text recognition for two scripts: Bengali and Nepali; there are about 300 and 40 million Bengali and Nepali speakers respectively. In this study, using encoder-decoder transformers, a model was developed, and its efficacy was assessed using a collection of optical text images, both handwritten and printed. The results signify that the suggested technique corresponds with current approaches and achieves high precision in recognizing text in Bengali and Nepali. This study can pave the way for the advanced and accessible study of linguistics in South East Asia.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# APIコード例のプログラマ理解におけるソースコードリニアリティの影響を探る

Exploring the Impact of Source Code Linearity on the Programmers Comprehension of API Code Examples ( http://arxiv.org/abs/2404.02377v1 )

ライセンス: Link先を確認
Seham Alharbi, Dimitris Kolovos, (参考訳) コンテキスト: アプリケーションプログラミングインターフェース(API)のコード例は、APIを学ぶための重要な知識リソースです。 しかし、コード例におけるソースコードの構造的特性が、その理解性と再利用性にどのように影響するかを、いくつかのユーザー研究が調査している。 目的:調査を行った。 (a)線型性と b) APIコード例のソースコードの長さは,正確さと使用時間の観点から,ユーザのパフォーマンスに影響する。 主観評価も収集しました。 メソッド: 61人のJava開発者を対象に,オンラインコード理解実験を実施しました。 ケーススタディでは、Joda-Time JavaライブラリのAPIコード例を使用しました。 参加者はコード理解を行い、異なる長さと線形性を持つサンプルの変種に関するタスクを再利用させました。 発見: 参加者は、線形コード例に晒された場合、より高速な反応時間を示した。 しかし,正当性や主観的評価に有意な差は認められなかった。 インプリケーション: ソースコードの線形表示は、最初の例の理解と再利用性を高める可能性があることを示唆する。 これによって、API開発者のAPIコード例の効率的な構造化に関する洞察が得られます。 しかし、我々はさらなる調査の必要性を強調している。

Context: Application Programming Interface (API) code examples are an essential knowledge resource for learning APIs. However, a few user studies have explored how the structural characteristics of the source code in code examples impact their comprehensibility and reusability. Objectives: We investigated whether the (a) linearity and (b) length of the source code in API code examples affect users performance in terms of correctness and time spent. We also collected subjective ratings. Methods: We conducted an online controlled code comprehension experiment with 61 Java developers. As a case study, we used the API code examples from the Joda-Time Java library. We had participants perform code comprehension and reuse tasks on variants of the example with different lengths and degrees of linearity. Findings: Participants demonstrated faster reaction times when exposed to linear code examples. However, no substantial differences in correctness or subjective ratings were observed. Implications: Our findings suggest that the linear presentation of a source code may enhance initial example understanding and reusability. This, in turn, may provide API developers with some insights into the effective structuring of their API code examples. However, we highlight the need for further investigation.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# 補間による確率加速度勾配の高速収束

Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation ( http://arxiv.org/abs/2404.02378v1 )

ライセンス: Link先を確認
Aaron Mishkin, Mert Pilanci, Mark Schmidt, (参考訳) 補間条件下での確率的ネステロフ加速度の一般化版に対する新しい収束率を証明した。 従来の解析と異なり,本手法は期待を十分に進める確率勾配法を加速させる。 推定シーケンスフレームワークを用いて進行するこの証明は、凸関数と強い凸関数の両方に適用でき、強い成長条件下での加速SGDに容易に特殊化できる。 この特別な場合、我々の分析は、前の研究と比較して、強い成長定数への依存を$\rho$から$\sqrt{\rho}$に減少させる。 この改善は、最悪の場合の条件番号の平方根に匹敵するものであり、確率加速度の保証はSGDよりも悪いという批判に対処するものである。

We prove new convergence rates for a generalized version of stochastic Nesterov acceleration under interpolation conditions. Unlike previous analyses, our approach accelerates any stochastic gradient method which makes sufficient progress in expectation. The proof, which proceeds using the estimating sequences framework, applies to both convex and strongly convex functions and is easily specialized to accelerated SGD under the strong growth condition. In this special case, our analysis reduces the dependence on the strong growth constant from $\rho$ to $\sqrt{\rho}$ as compared to prior work. This improvement is comparable to a square-root of the condition number in the worst case and address criticism that guarantees for stochastic acceleration could be worse than those for SGD.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# 負の温度で動作する量子オットーエンジンのエントロピー生成と効率向上

Entropy production and efficiency enhancement in quantum Otto engines operating at negative temperatures ( http://arxiv.org/abs/2404.02385v1 )

ライセンス: Link先を確認
Aryadine F. de Sousa, Gabriella G. Damas, Norton G. de Almeida, (参考訳) 周期的古典的および量子熱機械は、ストロークが準静的に実行されるときに高い効率を示す。 熱機械の利点の数値に関する最近の理論的および実験的研究は、負の温度の環境での運転に有利であることを示している。 実験的な概念実証 (Phys. Lett. 122, 240602 (2019)) において、負の温度で作動する量子オットーエンジンは、サイクルが高速に実行されるほど効率が高くなる挙動を示すことを示した。 本研究では, この反直感的挙動を説明するために, エントロピー生成と摩擦加工の概念を利用し, 貯水池が負の温度を持つ場合にのみ発生することを示す。

Cyclic classical and quantum thermal machines show higher efficiency when the strokes are carried out quasi-statically. Recent theoretical and experimental work on figures of merit for thermal machines show that they have an advantage when operating in environments with negative temperatures. In an experimental proof of concept [Phys. Rev. Lett. 122, 240602 (2019)], it was shown that quantum Otto engines operating at negative temperatures can exhibit a behavior in which the faster the cycle is carried out, the higher the efficiency. In this work, we make use of the concept of entropy production and friction work to explain this counterintuitive behavior, and we show that it only occurs when reservoirs have negative temperatures.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# 物理誘導機械学習による光スペクトルデータの逆問題

An inversion problem for optical spectrum data via physics-guided machine learning ( http://arxiv.org/abs/2404.02387v1 )

ライセンス: Link先を確認
Hwiwoo Park, Jun H. Park, Jungseek Hwang, (参考訳) 計測光スペクトルからペアリンググルー関数を導出する難題を解決するための,新しい機械学習手法である正規化リカレント推論マシン(rRIM)を提案する。 rRIMは、トレーニングと推論の両方に物理原則を取り入れ、ノイズの堅牢性、アウト・オブ・ディストリビューションデータによる柔軟性、データ要求の削減を実現している。 実験光学スペクトルから信頼性の高いペアリンググルー関数を効果的に取得し、第一種フレドホルム積分方程式の同様の逆問題に対する有望な解を得る。

We propose the regularized recurrent inference machine (rRIM), a novel machine-learning approach to solve the challenging problem of deriving the pairing glue function from measured optical spectra. The rRIM incorporates physical principles into both training and inference and affords noise robustness, flexibility with out-of-distribution data, and reduced data requirements. It effectively obtains reliable pairing glue functions from experimental optical spectra and yields promising solutions for similar inverse problems of the Fredholm integral equation of the first kind.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# CAPE: 拡張DNN解釈のための確率的アンサンブルとしてのCAM

CAPE: CAM as a Probabilistic Ensemble for Enhanced DNN Interpretation ( http://arxiv.org/abs/2404.02388v1 )

ライセンス: Link先を確認
Townim Faisal Chowdhury, Kewen Liao, Vu Minh Hieu Phan, Minh-Son To, Yutong Xie, Kevin Hung, David Ross, Anton van den Hengel, Johan W. Verjans, Zhibin Liao, (参考訳) ディープニューラルネットワーク(DNN)は視覚的分類タスクに広く利用されているが、複雑な計算プロセスとブラックボックスの性質は、決定の透明性と解釈可能性を妨げる。 クラスアクティベーションマップ(CAM)と最近の変種は、DNNの'アテンション'ヒートマップを表示することで、DNNの決定過程を視覚的に説明する方法を提供する。 それにもかかわらず、CAMの説明は相対的な注意情報のみを提供しており、注意ヒートマップでは、どの画像領域が他よりも重要か、それともあまり重要かを解釈することができる。 しかし、これらの領域はクラス間で有意に比較することはできず、モデルのクラス予測に対する各領域の貢献は明らかにされていない。 本稿では,DNN解釈の改善につながるこれらの課題に対処するため,画像領域のコントリビューションを統一的かつ確率論的に有意義に評価するCAMの新たな再構成であるCAPEを提案する。 我々はCAPEとCUBおよびImageNetベンチマークデータセットの最先端CAM手法を定量的に定性的に比較し、拡張された解釈可能性を示す。 また,慢性骨髄単球性白血病(CMML)の診断に苦慮した細胞診データセットについても検討した。 コードは、https://github.com/AIML-MED/CAPE.comで入手できる。

Deep Neural Networks (DNNs) are widely used for visual classification tasks, but their complex computation process and black-box nature hinder decision transparency and interpretability. Class activation maps (CAMs) and recent variants provide ways to visually explain the DNN decision-making process by displaying 'attention' heatmaps of the DNNs. Nevertheless, the CAM explanation only offers relative attention information, that is, on an attention heatmap, we can interpret which image region is more or less important than the others. However, these regions cannot be meaningfully compared across classes, and the contribution of each region to the model's class prediction is not revealed. To address these challenges that ultimately lead to better DNN Interpretation, in this paper, we propose CAPE, a novel reformulation of CAM that provides a unified and probabilistically meaningful assessment of the contributions of image regions. We quantitatively and qualitatively compare CAPE with state-of-the-art CAM methods on CUB and ImageNet benchmark datasets to demonstrate enhanced interpretability. We also test on a cytology imaging dataset depicting a challenging Chronic Myelomonocytic Leukemia (CMML) diagnosis problem. Code is available at: https://github.com/AIML-MED/CAPE.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# エンコーダ・デコーダ言語モデルにおける構造化データの線形化について:テキストからSQLへ

On Linearizing Structured Data in Encoder-Decoder Language Models: Insights from Text-to-SQL ( http://arxiv.org/abs/2404.02389v1 )

ライセンス: Link先を確認
Yutong Shao, Ndapa Nakashole, (参考訳) テーブル、データベース、知識グラフで広く使われている構造化データは、その表現に重大な課題を生じさせる。 大規模言語モデル (LLMs) の出現に伴い、線形化に基づく手法へとシフトし、構造化されたデータをシーケンシャルなトークンストリームとして処理し、しばしばグラフとして構造を明示的にモデル化するアプローチから逸脱した。 重要なことに、これらの線形化に基づく手法が、本質的に非線形である構造化データをどのように扱うかについて、我々の理解にはギャップが残っている。 本研究では,エンコーダ-デコーダ言語モデル,特にT5における構造化データの線形処理について検討する。 この結果から,スキーマリンクや構文予測などの人間設計プロセスの模倣が可能であり,単純なトークンシークエンシング以上の構造を深く,意味のある学習で学習できることが示唆された。 また、構造ノード符号化のエゴ中心性や、モード融合冗長性によるモデル圧縮の可能性など、モデルの内部メカニズムに関する知見も明らかにした。 全体として、この研究は線形化に基づく手法の内部の作業に光を当て、将来の研究のためのガイダンスを提供する可能性がある。

Structured data, prevalent in tables, databases, and knowledge graphs, poses a significant challenge in its representation. With the advent of large language models (LLMs), there has been a shift towards linearization-based methods, which process structured data as sequential token streams, diverging from approaches that explicitly model structure, often as a graph. Crucially, there remains a gap in our understanding of how these linearization-based methods handle structured data, which is inherently non-linear. This work investigates the linear handling of structured data in encoder-decoder language models, specifically T5. Our findings reveal the model's ability to mimic human-designed processes such as schema linking and syntax prediction, indicating a deep, meaningful learning of structure beyond simple token sequencing. We also uncover insights into the model's internal mechanisms, including the ego-centric nature of structure node encodings and the potential for model compression due to modality fusion redundancy. Overall, this work sheds light on the inner workings of linearization-based methods and could potentially provide guidance for future research.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# APC2Mesh: 閉鎖された建物のファサードから完全な3Dモデルへのギャップを埋める

APC2Mesh: Bridging the gap from occluded building façades to full 3D models ( http://arxiv.org/abs/2404.02391v1 )

ライセンス: Link先を確認
Perpetual Hope Akwensi, Akshay Bharadwaj, Ruisheng Wang, (参考訳) 都市建物のデジタル双生児の利点は多い。 しかし、飛行中のLiDAR点雲から発生する大きな困難は、点密度の変化とノイズの中で重要な閉塞を正確に再構築する有効な手段である。 ノイズ/スパーシティー/閉塞ギャップを埋めて高忠実度3Dビルディングモデルを生成するために,3次元再構成パイプラインにポイントコンプリートを統合したAPC2Meshを提案する。 具体的には、3次元メッシュ再構成のための線形化スキップアテンションに基づく変形ネットワークへの入力として、隠蔽された点から生成された完全点を利用する。 実験では,(1) APC2Meshは比較的優れた結果をもたらし, 多様なスタイルや複雑度を有する航空機搭載ビルディングポイントを閉鎖する際の課題に対処する上での有効性を示した。 2) 通常の深層学習に基づく3次元点雲再構成手法と点完備化の組み合わせは, 航空機搭載のビルディングポイントを再現するための直接的かつ効果的なソリューションを提供する。 このように、このニューラルな統合は、より正確で忠実な都市建物のためのデジタルツインの創出を促進することを約束している。

The benefits of having digital twins of urban buildings are numerous. However, a major difficulty encountered in their creation from airborne LiDAR point clouds is the effective means of accurately reconstructing significant occlusions amidst point density variations and noise. To bridge the noise/sparsity/occlusion gap and generate high fidelity 3D building models, we propose APC2Mesh which integrates point completion into a 3D reconstruction pipeline, enabling the learning of dense geometrically accurate representation of buildings. Specifically, we leveraged complete points generated from occluded ones as input to a linearized skip attention-based deformation network for 3D mesh reconstruction. In our experiments, conducted on 3 different scenes, we demonstrate that: (1) APC2Mesh delivers comparatively superior results, indicating its efficacy in handling the challenges of occluded airborne building points of diverse styles and complexities. (2) The combination of point completion with typical deep learning-based 3D point cloud reconstruction methods offers a direct and effective solution for reconstructing significantly occluded airborne building points. As such, this neural integration holds promise for advancing the creation of digital twins for urban buildings with greater accuracy and fidelity.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# 形態モデルを用いた低リソースニューラルマシン翻訳

Low-resource neural machine translation with morphological modeling ( http://arxiv.org/abs/2404.02392v1 )

ライセンス: Link先を確認
Antoine Nzeyimana, (参考訳) ニューラルマシン翻訳(NMT)における形態的モデリングは、形態学的に豊富な言語に対するオープン語彙機械翻訳を実現するための有望なアプローチである。 しかし、サブワードトークン化や文字ベースモデルのような既存の手法は、単語の表面形式に限られている。 本研究では,低リソース環境下での複雑な形態をモデル化するためのフレームワークソリューションを提案する。 入力時の形態情報を符号化する2層トランスアーキテクチャが選択される。 ターゲット側出力では、ビームサーチベースデコーダと組み合わせたマルチタスクマルチラベルトレーニングスキームが機械翻訳性能を向上させる。 学習済み言語モデルの統合と,ソースとターゲット言語間の単語順序関係のモデリングを容易にするため,トランスフォーマモデルへの注意増強スキームが汎用形式で提案されている。 いくつかのデータ拡張手法を評価し,低リソース環境での翻訳性能の向上を図った。 パブリックドメインのパラレルテキストを用いた英訳であるKinyarwandaについて,提案手法の評価を行った。 最終モデルは,大規模多言語モデルと競合する性能を実現する。 この結果が,低リソースNMTにおける明示的な形態情報の利用と,提案したモデルとデータ拡張の促進につながることを期待する。

Morphological modeling in neural machine translation (NMT) is a promising approach to achieving open-vocabulary machine translation for morphologically-rich languages. However, existing methods such as sub-word tokenization and character-based models are limited to the surface forms of the words. In this work, we propose a framework-solution for modeling complex morphology in low-resource settings. A two-tier transformer architecture is chosen to encode morphological information at the inputs. At the target-side output, a multi-task multi-label training scheme coupled with a beam search-based decoder are found to improve machine translation performance. An attention augmentation scheme to the transformer model is proposed in a generic form to allow integration of pre-trained language models and also facilitate modeling of word order relationships between the source and target languages. Several data augmentation techniques are evaluated and shown to increase translation performance in low-resource settings. We evaluate our proposed solution on Kinyarwanda - English translation using public-domain parallel text. Our final models achieve competitive performance in relation to large multi-lingual models. We hope that our results will motivate more use of explicit morphological information and the proposed model and data augmentations in low-resource NMT.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# 多言語機械翻訳におけるバックドアアタック

Backdoor Attack on Multilingual Machine Translation ( http://arxiv.org/abs/2404.02393v1 )

ライセンス: Link先を確認
Jun Wang, Qiongkai Xu, Xuanli He, Benjamin I. P. Rubinstein, Trevor Cohn, (参考訳) マルチリンガル機械翻訳(MNMT)システムには大きな保証があるが、セキュリティ上の脆弱性もある。 我々の研究は、MNMTシステムは特に悪質なバックドア攻撃の影響を受ける可能性があることを強調し、攻撃者は汚染されたデータを低リソースの言語ペアに注入し、高リソースの言語を含む他の言語で悪意のある翻訳を引き起こす。 実験の結果,0.01%未満の有毒データを低リソース言語ペアに注入すると,高リソース言語ペアを攻撃した場合の平均20%の攻撃成功率が得られることがわかった。 この種の攻撃は、低リソース設定に固有の言語の攻撃面が大きいことを考えると、特に懸念される。 我々の目標は、MNMTシステム内のこれらの脆弱性に注意を向けることであり、特に低リソース言語の文脈において、機械翻訳におけるセキュリティ問題に対処するようコミュニティに促すことである。

While multilingual machine translation (MNMT) systems hold substantial promise, they also have security vulnerabilities. Our research highlights that MNMT systems can be susceptible to a particularly devious style of backdoor attack, whereby an attacker injects poisoned data into a low-resource language pair to cause malicious translations in other languages, including high-resource languages. Our experimental results reveal that injecting less than 0.01% poisoned data into a low-resource language pair can achieve an average 20% attack success rate in attacking high-resource language pairs. This type of attack is of particular concern, given the larger attack surface of languages inherent to low-resource settings. Our aim is to bring attention to these vulnerabilities within MNMT systems with the hope of encouraging the community to address security concerns in machine translation, especially in the context of low-resource languages.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# マルチモーダル癌生存分析のためのコホート・個人共同学習

Cohort-Individual Cooperative Learning for Multimodal Cancer Survival Analysis ( http://arxiv.org/abs/2404.02394v1 )

ライセンス: Link先を確認
Huajun Zhou, Fengtao Zhou, Hao Chen, (参考訳) 近年,マルチモーダルデータ,病理画像,ゲノムプロファイルを統合し,がん生存率分析における顕著な成果を目の当たりにしている。 しかし、これらのモジュラリティの不均一性と高次元性は、優れた一般化を維持しながら識別的表現を抽出する上で重要な課題となる。 本稿では,知識分解とコホート指導の協調によるがん生存分析を促進するためのコホート・個別協調学習(CCL)フレームワークを提案する。 具体的には、まず、マルチモーダル知識を4つの異なる構成要素(冗長性、相乗性、特異性)に明示的に分解するマルチモーダル知識分解(MKD)モジュールを提案する。 このような包括的分解は、モデルが容易に見過ごされるが重要な情報を認識できるように啓蒙し、効果的なマルチモーダル融合を促進する。 第2に,タスク関連情報を過度に適合させるリスクを軽減するために,コホートガイダンスモデリング(CGM)を提案する。 モデルの一般化能力の過度な適合と向上の落とし穴を回避しつつ、基礎となるマルチモーダルデータのより包括的で堅牢な理解を促進することができる。 知識分解とコホート指導手法の協調により,識別能力と一般化能力を増強した頑健なマルチモーダルサバイバル分析モデルを構築した。 5つのがんデータセットの大規模な実験結果は、生存分析のためのマルチモーダルデータの統合において、我々のモデルの有効性を実証している。

Recently, we have witnessed impressive achievements in cancer survival analysis by integrating multimodal data, e.g., pathology images and genomic profiles. However, the heterogeneity and high dimensionality of these modalities pose significant challenges for extracting discriminative representations while maintaining good generalization. In this paper, we propose a Cohort-individual Cooperative Learning (CCL) framework to advance cancer survival analysis by collaborating knowledge decomposition and cohort guidance. Specifically, first, we propose a Multimodal Knowledge Decomposition (MKD) module to explicitly decompose multimodal knowledge into four distinct components: redundancy, synergy and uniqueness of the two modalities. Such a comprehensive decomposition can enlighten the models to perceive easily overlooked yet important information, facilitating an effective multimodal fusion. Second, we propose a Cohort Guidance Modeling (CGM) to mitigate the risk of overfitting task-irrelevant information. It can promote a more comprehensive and robust understanding of the underlying multimodal data, while avoiding the pitfalls of overfitting and enhancing the generalization ability of the model. By cooperating the knowledge decomposition and cohort guidance methods, we develop a robust multimodal survival analysis model with enhanced discrimination and generalization abilities. Extensive experimental results on five cancer datasets demonstrate the effectiveness of our model in integrating multimodal data for survival analysis.
翻訳日:2024-04-04 18:59:11 公開日:2024-04-03
# 無線フェデレーション学習のための最適バッチアロケーション

Optimal Batch Allocation for Wireless Federated Learning ( http://arxiv.org/abs/2404.02395v1 )

ライセンス: Link先を確認
Jaeyoung Song, Sang-Woon Jeon, (参考訳) Federated Learningは、プライベートデータに直接アクセスすることなく、ローカルデバイスに分散されたデータセットに適合するグローバルモデルを構築し、サーバとローカルデバイス間の通信を活用することを目的としている。 実用的な通信方式では,目標性能を達成するのに必要な完了時間について検討する。 具体的には、フェデレーション学習に必要なイテレーション数を分析し、最小のグローバル損失から特定の最適性ギャップに到達する。 その後、時間分割多重アクセス(TDMA)とランダムアクセス(RA)の2つの基本的多重アクセス方式で、各イテレーションに必要な時間を特徴付ける。 本稿では,TDMAに基づくフェデレーション学習システムに最適なステップワイズバッチアロケーションを提案する。 さらに,提案したステップワイド・バッチ・アロケーションによって提供されるデバイス間の非ゼロバッチ・ギャップがRAベースの学習システムの完了時間を大幅に短縮することを示す。 数値的な評価は実データ実験を通じてこれらの解析結果を検証し、実質的な完了時間短縮の可能性を強調した。

Federated learning aims to construct a global model that fits the dataset distributed across local devices without direct access to private data, leveraging communication between a server and the local devices. In the context of a practical communication scheme, we study the completion time required to achieve a target performance. Specifically, we analyze the number of iterations required for federated learning to reach a specific optimality gap from a minimum global loss. Subsequently, we characterize the time required for each iteration under two fundamental multiple access schemes: time-division multiple access (TDMA) and random access (RA). We propose a step-wise batch allocation, demonstrated to be optimal for TDMA-based federated learning systems. Additionally, we show that the non-zero batch gap between devices provided by the proposed step-wise batch allocation significantly reduces the completion time for RA-based learning systems. Numerical evaluations validate these analytical results through real-data experiments, highlighting the remarkable potential for substantial completion time reduction.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# Smoothness Constraintによる拡散型点雲生成の促進

Enhancing Diffusion-based Point Cloud Generation with Smoothness Constraint ( http://arxiv.org/abs/2404.02396v1 )

ライセンス: Link先を確認
Yukun Li, Liping Liu, (参考訳) 拡散モデルはポイントクラウド生成タスクで人気がある。 既存の作業では前方拡散法を用いて、元の点分布をノイズ分布に変換し、逆拡散法を学習し、ノイズ分布から点分布を復元する。 しかし、逆拡散過程は、点雲の幾何学的性質の無知のため、表面上の非滑らかな点を持つサンプルを生成することができる。 点雲生成のための拡散フレームワークに局所的滑らか性制約を組み込むことにより問題を緩和する。 実験により、提案モデルが現実的な形状とスムーズな点雲を生成できることを示した。

Diffusion models have been popular for point cloud generation tasks. Existing works utilize the forward diffusion process to convert the original point distribution into a noise distribution and then learn the reverse diffusion process to recover the point distribution from the noise distribution. However, the reverse diffusion process can produce samples with non-smooth points on the surface because of the ignorance of the point cloud geometric properties. We propose alleviating the problem by incorporating the local smoothness constraint into the diffusion framework for point cloud generation. Experiments demonstrate the proposed model can generate realistic shapes and smoother point clouds, outperforming multiple state-of-the-art methods.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# 二重化非エルミート系における拡張ワニエ・スタークはしごと粒子対ブロッホ振動

Extended Wannier-Stark ladder and particle-pair Bloch oscillations in dimerized non-Hermitian systems ( http://arxiv.org/abs/2404.02399v1 )

ライセンス: Link先を確認
H. P. Zhang, Z. Song, (参考訳) エルミート政権において、ワニエ・スターク・はしごは、印加された静電場を持つ周期ポテンシャルにおける電子の固有状態を特徴づける。 本研究では、この概念を線形ポテンシャルの下で周期的非エルミート系の複素構造に拡張する。 エネルギー準位は複雑であるが、真のブロッホ周波数で等しく空間化されていることを示す。 これにより、単一粒子のブロッホ振動を減衰(または成長)速度で保証する。 このシステムは、一定の条件下で標準的な2粒子ブロッホ振動をサポートすることもできる。 そこで本研究では,2種類の非エルミート系について述べる。 さらに、単粒子2D $\mathcal{PT}$-symmetric square 格子における電子対ダイナミクスの結果を示すスキームも提案する。

In the Hermitian regime, the Wannier-Stark ladder characterizes the eigenstates of an electron in a periodic potential with an applied static electric field. In this work, we extend this concept to the complex regime for a periodic non-Hermitian system under a linear potential. We show that although the energy levels can be complex, they are still equally spaced by a real Bloch frequency. This ensures single-particle Bloch oscillations with a damping (or growing) rate. The system can also support standard two-particle Bloch oscillations under certain conditions. We propose two types of dimerized non-Hermitian systems to demonstrate our results. In addition, we also propose a scheme to demonstrate the results of electron-pair dynamics in a single-particle 2D $\mathcal{PT}$-symmetric square lattice.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# Token Trails: ChatLLMによる会話型AIにおけるコンテキスト深さのナビゲート

Token Trails: Navigating Contextual Depths in Conversational AI with ChatLLM ( http://arxiv.org/abs/2404.02402v1 )

ライセンス: Link先を確認
Md. Kowsher, Ritesh Panditi, Nusrat Jahan Prottasha, Prakash Bhat, Anupam Kumar Bairagi, Mohammad Shamsul Arefin, (参考訳) LLM(Large Language Models)を用いた会話モデリングでは、一貫性と文脈に関連のある応答を生成するために、コンテキストの微妙な理解が必要となる。 本稿ではトークン型埋め込みを利用して会話中の複雑な文脈ニュアンスをナビゲートする新しいアプローチであるToken Trailsを提案する。 本フレームワークはトークン型埋め込みを利用して,ユーザの発話とボット応答を区別し,コンテキスト認識応答の生成を容易にする。 総合的な実験と評価を通じて,会話理解と応答生成を改善し,最先端のパフォーマンスを達成する上でのToken Trailsの有効性を実証する。 この結果から,会話型AIにおけるコンテキストモデリングの重要性を強調し,Token Trailsの今後の可能性を明らかにするとともに,より洗練され,文脈的に認識されたチャットボットインタラクションの道を開いた。

Conversational modeling using Large Language Models (LLMs) requires a nuanced understanding of context to generate coherent and contextually relevant responses. In this paper, we present Token Trails, a novel approach that leverages token-type embeddings to navigate the intricate contextual nuances within conversations. Our framework utilizes token-type embeddings to distinguish between user utterances and bot responses, facilitating the generation of context-aware replies. Through comprehensive experimentation and evaluation, we demonstrate the effectiveness of Token Trails in improving conversational understanding and response generation, achieving state-of-the-art performance. Our results highlight the significance of contextual modeling in conversational AI and underscore the promising potential of Token Trails to advance the field, paving the way for more sophisticated and contextually aware chatbot interactions.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# ペルシア語のための大規模言語モデルのベンチマーク:ChatGPTに着目した予備的研究

Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT ( http://arxiv.org/abs/2404.02403v1 )

ライセンス: Link先を確認
Amirhossein Abaskohi, Sara Baruni, Mostafa Masoudi, Nesa Abbasi, Mohammad Hadi Babalou, Ali Edalat, Sepehr Kamahi, Samin Mahdizadeh Sani, Nikoo Naghavian, Danial Namazifard, Pouya Sadeghi, Yadollah Yaghoobzadeh, (参考訳) 本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。 ChatGPT と後続の LLM は英語で顕著な性能を示したが、低リソース言語の効率性は未解決のままである。 本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。 我々の主な焦点はGPT-3.5-turboであるが、GPT-4とOpenChat-3.5も含み、より総合的な評価を提供する。 我々の評価は、古典的、推論、知識に基づくドメインに分類される様々なタスクの集合を含んでいる。 そこで本研究では,従来のタスク固有の微調整モデルと比較し,LLMの評価を行った。 推論タスクのためのペルシア語のデータセットが限られていることを踏まえ,小学校数学の質問に基づくベンチマークと,7年生と10年生の入学試験から得られたベンチマークを新たに導入した。 以上の結果から, LLM, 特にGPT-4は, 推論能力と一般知識の広い理解を必要とするタスクに優れるが, 特定のタスクに特化して微調整されたより小型の事前学習モデルに遅れが生じることが示唆された。 さらに,GPT-3.5に入力する前に,テストセットを英語に翻訳する際の性能向上を観察した。 これらの結果は,ペルシャ語におけるLLM性能向上の意義を浮き彫りにしている。 特に注目に値するのはペルシア語の特徴であり、その異なるアルファベットや書体が特徴である。

This paper explores the efficacy of large language models (LLMs) for Persian. While ChatGPT and consequent LLMs have shown remarkable performance in English, their efficiency for more low-resource languages remains an open question. We present the first comprehensive benchmarking study of LLMs across diverse Persian language tasks. Our primary focus is on GPT-3.5-turbo, but we also include GPT-4 and OpenChat-3.5 to provide a more holistic evaluation. Our assessment encompasses a diverse set of tasks categorized into classic, reasoning, and knowledge-based domains. To enable a thorough comparison, we evaluate LLMs against existing task-specific fine-tuned models. Given the limited availability of Persian datasets for reasoning tasks, we introduce two new benchmarks: one based on elementary school math questions and another derived from the entrance exams for 7th and 10th grades. Our findings reveal that while LLMs, especially GPT-4, excel in tasks requiring reasoning abilities and a broad understanding of general knowledge, they often lag behind smaller pre-trained models fine-tuned specifically for particular tasks. Additionally, we observe improved performance when test sets are translated to English before inputting them into GPT-3.5. These results highlight the significant potential for enhancing LLM performance in the Persian language. This is particularly noteworthy due to the unique attributes of Persian, including its distinct alphabet and writing styles.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# TE-TAD:時間的協調表現による終端から終端までの時間的行動検出に向けて

TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression ( http://arxiv.org/abs/2404.02405v1 )

ライセンス: Link先を確認
Ho-Joong Kim, Jung-Ho Hong, Heejon Kong, Seong-Whan Lee, (参考訳) 本稿では,時間的行動検出(TAD)のための問合せ型検出器において,手作り部品に依存した正規化座標式が重要な要素であることを示す。 オブジェクト検出におけるエンドツーエンドフレームワークへの大きな進歩にもかかわらず、クエリベースの検出器は、TADで完全なエンドツーエンドモデリングを実現するために制限されている。 この問題に対処するために、時間に整合した座標式を統合するフルエンド・ツー・エンドの時間的行動検出変換器である \modelname{} を提案する。 我々は、実際のタイムライン値を利用して座標表現を再構成し、非常に多様なビデオ時間環境から長さ不変表現を確実にする。 さらに,提案した適応クエリ選択は,ビデオ長に基づくクエリ数を動的に調整し,固定されたクエリセットと比較して,ビデオ長の変化に対する適切な解決策を提供する。 本手法は手作り部品を不要にすることでTAD処理を単純化するだけでなく,クエリーベース検出器の性能も大幅に向上する。 我々のTE-TADは、従来のクエリベースの検出器よりも優れており、一般的なベンチマークデータセットの最先端手法と比較して、競合的な性能を実現しています。 コードは、https://github.com/Dotori-HJ/TE-TADで入手できる。

In this paper, we investigate that the normalized coordinate expression is a key factor as reliance on hand-crafted components in query-based detectors for temporal action detection (TAD). Despite significant advancements towards an end-to-end framework in object detection, query-based detectors have been limited in achieving full end-to-end modeling in TAD. To address this issue, we propose \modelname{}, a full end-to-end temporal action detection transformer that integrates time-aligned coordinate expression. We reformulate coordinate expression utilizing actual timeline values, ensuring length-invariant representations from the extremely diverse video duration environment. Furthermore, our proposed adaptive query selection dynamically adjusts the number of queries based on video length, providing a suitable solution for varying video durations compared to a fixed query set. Our approach not only simplifies the TAD process by eliminating the need for hand-crafted components but also significantly improves the performance of query-based detectors. Our TE-TAD outperforms the previous query-based detectors and achieves competitive performance compared to state-of-the-art methods on popular benchmark datasets. Code is available at: https://github.com/Dotori-HJ/TE-TAD
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# チャットモデルのバックドア脆弱性を探る

Exploring Backdoor Vulnerabilities of Chat Models ( http://arxiv.org/abs/2404.02406v1 )

ライセンス: Link先を確認
Yunzhuo Hao, Wenkai Yang, Yankai Lin, (参考訳) 近年の研究では、LLM(Large Language Models)がバックドアアタック(Backdoor Attack)と呼ばれるセキュリティの脅威を受けやすいことが示されている。 バックドアモデルは通常のケースではうまく動作するが、特定のバックドアトリガーで挿入された入力に対して悪意のある振る舞いを示す。 LLMに関する最近のバックドア研究は、主に命令調整されたLLMに焦点を当て、チャットモデルであるマルチターン会話データに基づいてLLMを微調整する別の現実的なシナリオを無視している。 チャットモデルは様々な現実世界のシナリオで広く採用されているため、チャットモデルのセキュリティは注目に値する。 残念ながら、フレキシブルなマルチターンインタラクションフォーマットは、代わりにトリガーデザインの柔軟性を高め、チャットモデルの脆弱性をバックドアアタックに増幅します。 本研究では,異なるラウンドのユーザ入力に対して複数のトリガシナリオを分散し,すべてのトリガシナリオが過去の会話に現れる場合にのみバックドアをトリガーする,新しいバックドア攻撃手法をチャットモデル上で明らかにし,実現する。 実験の結果,Vicuna-7B上では90%以上のASRを達成できたが,ユーザ要求に対して有効な応答を提供することで,チャットモデルの正常な機能を維持することができた。 また、バックドアは下流のアライメントによって簡単に取り除けず、継続的な研究の重要性とチャットモデルのセキュリティ上の懸念を強調している。 警告: 本論文は有毒な内容を含む可能性がある。

Recent researches have shown that Large Language Models (LLMs) are susceptible to a security threat known as Backdoor Attack. The backdoored model will behave well in normal cases but exhibit malicious behaviours on inputs inserted with a specific backdoor trigger. Current backdoor studies on LLMs predominantly focus on instruction-tuned LLMs, while neglecting another realistic scenario where LLMs are fine-tuned on multi-turn conversational data to be chat models. Chat models are extensively adopted across various real-world scenarios, thus the security of chat models deserves increasing attention. Unfortunately, we point out that the flexible multi-turn interaction format instead increases the flexibility of trigger designs and amplifies the vulnerability of chat models to backdoor attacks. In this work, we reveal and achieve a novel backdoor attacking method on chat models by distributing multiple trigger scenarios across user inputs in different rounds, and making the backdoor be triggered only when all trigger scenarios have appeared in the historical conversations. Experimental results demonstrate that our method can achieve high attack success rates (e.g., over 90% ASR on Vicuna-7B) while successfully maintaining the normal capabilities of chat models on providing helpful responses to benign user requests. Also, the backdoor can not be easily removed by the downstream re-alignment, highlighting the importance of continued research and attention to the security concerns of chat models. Warning: This paper may contain toxic content.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# 部分観測可能な連続制御の基礎モデルとしての決定変換器

Decision Transformer as a Foundation Model for Partially Observable Continuous Control ( http://arxiv.org/abs/2404.02407v1 )

ライセンス: Link先を確認
Xiangyuan Zhang, Weichao Mao, Haoran Qiu, Tamer Başar, (参考訳) 部分状態可観測性を持つ非線形力学系の閉ループ制御は、多種多様な、あまり標準化されていない理論ツールの知識を必要とする。 さらに、所望のシステム動作を達成するためには、コントローラと推定器の設計を微妙に統合する必要がある。 一般的なコントローラ合成フレームワークを確立するために,Decision Transformer (DT) アーキテクチャについて検討する。 具体的には、制御タスクを、過去の観測、行動、報奨に基づいて現在の最適動作を予測するものであり、別個の推定器設計の必要性を排除している。 次に、事前学習された言語モデル、すなわち、生成事前学習トランスフォーマー(GPT)シリーズを活用してDTを初期化し、低ランク適応(LoRA)を用いて制御タスクにトレーニングする。 航空システムの操作から偏微分方程式 (PDE) の制御に至るまで, 5つの異なる制御課題を対象とした総合的な実験を行い, 制御課題に固有のパラメータ非依存構造を捕捉するDTの能力を実証した。 DTは完全に新しいタスクに対して驚くべきゼロショットの一般化能力を示し、最小限のデモデータで専門家のパフォーマンスレベルを急速に上回ります。 これらの知見は、一般的な制御アプリケーションの基本制御系としてのDTの可能性を示している。

Closed-loop control of nonlinear dynamical systems with partial-state observability demands expert knowledge of a diverse, less standardized set of theoretical tools. Moreover, it requires a delicate integration of controller and estimator designs to achieve the desired system behavior. To establish a general controller synthesis framework, we explore the Decision Transformer (DT) architecture. Specifically, we first frame the control task as predicting the current optimal action based on past observations, actions, and rewards, eliminating the need for a separate estimator design. Then, we leverage the pre-trained language models, i.e., the Generative Pre-trained Transformer (GPT) series, to initialize DT and subsequently train it for control tasks using low-rank adaptation (LoRA). Our comprehensive experiments across five distinct control tasks, ranging from maneuvering aerospace systems to controlling partial differential equations (PDEs), demonstrate DT's capability to capture the parameter-agnostic structures intrinsic to control tasks. DT exhibits remarkable zero-shot generalization abilities for completely new tasks and rapidly surpasses expert performance levels with a minimal amount of demonstration data. These findings highlight the potential of DT as a foundational controller for general control applications.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# CMULAB:自然言語処理モデルのトレーニングとデプロイのためのオープンソースフレームワーク

CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models ( http://arxiv.org/abs/2404.02408v1 )

ライセンス: Link先を確認
Zaid Sheikh, Antonios Anastasopoulos, Shruti Rijhwani, Lindia Tjuatja, Robbie Jimerson, Graham Neubig, (参考訳) オープンソースでない言語でNLP(Natural Language Processing)ツールを効果的に使用するには、言語自体の理解、最新のモデルやトレーニング方法論への慣れ、これらのモデルをデプロイするための技術的専門知識が必要である。 これは言語コミュニティのメンバや言語学者がNLPツールを使用する上で大きな障害となる可能性がある。 本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループ微調整を簡単にするオープンソースフレームワークであるCMU言語アノテーションバックエンドを紹介する。 CMULABは、マルチ言語モデルのパワーを活用して、限られたトレーニングデータであっても、音声認識、OCR、翻訳、構文解析といった既存のツールを新しい言語に迅速に適応し、拡張することができる。 現在利用可能なさまざまなツールやAPI、開発者がフレームワークに新しいモデルや機能を簡単に追加できる方法について述べています。 コードはhttps://github.com/neulab/cmulabで、ライブデモはhttps://cmulab.devで公開されている。

Effectively using Natural Language Processing (NLP) tools in under-resourced languages requires a thorough understanding of the language itself, familiarity with the latest models and training methodologies, and technical expertise to deploy these models. This could present a significant obstacle for language community members and linguists to use NLP tools. This paper introduces the CMU Linguistic Annotation Backend, an open-source framework that simplifies model deployment and continuous human-in-the-loop fine-tuning of NLP models. CMULAB enables users to leverage the power of multilingual models to quickly adapt and extend existing tools for speech recognition, OCR, translation, and syntactic analysis to new languages, even with limited training data. We describe various tools and APIs that are currently available and how developers can easily add new models/functionality to the framework. Code is available at https://github.com/neulab/cmulab along with a live demo at https://cmulab.dev
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# TCLC-GS「LiDAR-Camera Gaussian Splatting」

TCLC-GS: Tightly Coupled LiDAR-Camera Gaussian Splatting for Surrounding Autonomous Driving Scenes ( http://arxiv.org/abs/2404.02410v1 )

ライセンス: Link先を確認
Cheng Zhao, Su Sun, Ruoyu Wang, Yuliang Guo, Jun-Jun Wan, Zhou Huang, Xinyu Huang, Yingjie Victor Chen, Liu Ren, (参考訳) 都市シーンのほとんどの3Dガウススティング(3D-GS)ベースの手法は、3Dガウスを3D LiDARポイントで直接初期化するが、これはLiDARのデータ能力を過小評価するだけでなく、カメラデータにLiDARを融合する潜在的な利点を見落としている。 本稿では,LiDAR-Camera Gaussian Splatting (TCLC-GS) を設計し,LiDARとカメラセンサの双方の強度をフル活用し,高速で高品質な3D再構成とRGB/deepth合成を実現する。 TCLC-GSは、LiDARカメラデータから得られたハイブリッドな(カラー化された3Dメッシュ)と暗黙的な(階層的なオクツリー特徴)の3D表現を設計し、スプレイティングのために3Dガウスの性質を豊かにする。 3Dガウスの性質は、より完成度の高い3D形状と色情報を提供する3Dメッシュと一致して初期化されるだけでなく、検索したオクツリーの暗黙的特徴を通じてより広い文脈情報も付与される。 ガウススプレイティング最適化プロセスの間、3Dメッシュは密度の深い深度情報を監視として提供し、ロバストな幾何学を学ぶことでトレーニングプロセスを強化する。 Waymo Open Dataset と nuScenes Dataset の総合評価は、我々の方法のSOTA(State-of-the-art)性能を検証する。 NVIDIA RTX 3090 Tiを1つのNVIDIA RTX 3090 Tiを用いて高速トレーニングを行い,1920x1280 (Waymo)の解像度で90FPS,都市シナリオで1600x900 (nuScenes)の解像度で120FPSの解像度でリアルタイムRGBと深度レンダリングを実現する。

Most 3D Gaussian Splatting (3D-GS) based methods for urban scenes initialize 3D Gaussians directly with 3D LiDAR points, which not only underutilizes LiDAR data capabilities but also overlooks the potential advantages of fusing LiDAR with camera data. In this paper, we design a novel tightly coupled LiDAR-Camera Gaussian Splatting (TCLC-GS) to fully leverage the combined strengths of both LiDAR and camera sensors, enabling rapid, high-quality 3D reconstruction and novel view RGB/depth synthesis. TCLC-GS designs a hybrid explicit (colorized 3D mesh) and implicit (hierarchical octree feature) 3D representation derived from LiDAR-camera data, to enrich the properties of 3D Gaussians for splatting. 3D Gaussian's properties are not only initialized in alignment with the 3D mesh which provides more completed 3D shape and color information, but are also endowed with broader contextual information through retrieved octree implicit features. During the Gaussian Splatting optimization process, the 3D mesh offers dense depth information as supervision, which enhances the training process by learning of a robust geometry. Comprehensive evaluations conducted on the Waymo Open Dataset and nuScenes Dataset validate our method's state-of-the-art (SOTA) performance. Utilizing a single NVIDIA RTX 3090 Ti, our method demonstrates fast training and achieves real-time RGB and depth rendering at 90 FPS in resolution of 1920x1280 (Waymo), and 120 FPS in resolution of 1600x900 (nuScenes) in urban scenarios.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# 量子コンピュータ上の分割関数推定の複雑さに対する単純な下界

A simple lower bound for the complexity of estimating partition functions on a quantum computer ( http://arxiv.org/abs/2404.02414v1 )

ライセンス: Link先を確認
Zherui Chen, Giacomo Nannicini, (参考訳) 分割関数 ${\mathsf{Z}}(\beta)=\sum_{x\in\chi} e^{-\beta H(x)}$ をハミルトニアン$H(x)$ で特徴づけられるギブス分布に対して推定する複雑性について検討する。 我々は、ギブス状態のコヒーレントな符号化を通して反射に依存することにより、この問題を解く量子アルゴリズムの単純で自然な下界を提供する。 我々の主な貢献は、量子アルゴリズムで分割関数を推定するために必要な反射数に対する$\Omega(1/\epsilon)$lowboundである。 また、古典アルゴリズムに対して$\Omega(1/\epsilon^2)$クエリローバウンドを証明します。 証明は未知の二進弦のハミング重みを推定する問題からの還元に基づいている。

We study the complexity of estimating the partition function ${\mathsf{Z}}(\beta)=\sum_{x\in\chi} e^{-\beta H(x)}$ for a Gibbs distribution characterized by the Hamiltonian $H(x)$. We provide a simple and natural lower bound for quantum algorithms that solve this task by relying on reflections through the coherent encoding of Gibbs states. Our primary contribution is a $\Omega(1/\epsilon)$ lower bound for the number of reflections needed to estimate the partition function with a quantum algorithm. We also prove a $\Omega(1/\epsilon^2)$ query lower bound for classical algorithms. The proofs are based on a reduction from the problem of estimating the Hamming weight of an unknown binary string.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# 大規模ビジョンランゲージモデルの評価と測定方法 : 潜伏要因とバイアスの分析

What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases ( http://arxiv.org/abs/2404.02415v1 )

ライセンス: Link先を確認
Anthony Meng Huat Tiong, Junqi Zhao, Boyang Li, Junnan Li, Steven C. H. Hoi, Caiming Xiong, (参考訳) 画像テキストデータセットに基づいて事前訓練された視覚言語(VL)モデルは、評価が難しい広範囲なVL能力を達成した。 一般的な考え方は、少数のVLスキルがVLテストの多様性を過小評価しているということである。 本稿では,データから潜伏VLスキルを発見することを目的とした大規模トランスファー学習実験を行う。 テストスイートの設計に重要な意味を持つ興味深い特徴を明らかにする。 まず、生成タスクは長さバイアスに悩まされ、ベンチマークは出力長の異なるタスクのバランスをとるべきだと提案する。 第二に、因子分析が合理的かつ驚くべきVLスキルファクターの同定に成功し、ベンチマークがタスク選択に類似した分析を活用できることを示唆する。 最後に、新しいデータセットであるOLIVE(https://github.com/jq-zh/olive-dataset)を紹介します。 本研究は,バランスの取れた広視野視覚言語評価手法の設計に寄与する。

Vision-language (VL) models, pretrained on colossal image-text datasets, have attained broad VL competence that is difficult to evaluate. A common belief is that a small number of VL skills underlie the variety of VL tests. In this paper, we perform a large-scale transfer learning experiment aimed at discovering latent VL skills from data. We reveal interesting characteristics that have important implications for test suite design. First, generation tasks suffer from a length bias, suggesting benchmarks should balance tasks with varying output lengths. Second, we demonstrate that factor analysis successfully identifies reasonable yet surprising VL skill factors, suggesting benchmarks could leverage similar analyses for task selection. Finally, we present a new dataset, OLIVE (https://github.com/jq-zh/olive-dataset), which simulates user instructions in the wild and presents challenges dissimilar to all datasets we tested. Our findings contribute to the design of balanced and broad-coverage vision-language evaluation methods.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# 補助的なタスク要求は、より小さな言語モデルの能力を隠蔽する

Auxiliary task demands mask the capabilities of smaller language models ( http://arxiv.org/abs/2404.02418v1 )

ライセンス: Link先を確認
Jennifer Hu, Michael C. Frank, (参考訳) 発達心理学者は、言語理解や心の理論のような認知能力がいつ出現するかを論じてきた。 これらの議論は、子供の根底にある能力を隠蔽する「タスク要求」(特定の評価を行う際の補助的な課題)という概念にしばしば根ざしている。 言語モデル(LM)の能力を測定する際にも同様の問題が発生する: タスクのパフォーマンスはモデルの基本能力の関数であり、モデルが利用可能なリソースを考慮すればそのタスクを解釈し実行することができる。 ここでは, 類似推論, 反射的推論, 単語予測, 文法的判断に対して, タスク要求が大きい評価手法は, 要求の少ない評価よりも性能が低いことを示す。 この"オンデマンドギャップ"は、パラメータが少なく、トレーニングデータが少ないモデルでは最も顕著です。 この結果から,LM性能はインテリジェンスの直接的な表示(あるいは欠如)ではなく,研究者の設計選択のレンズを通して見る能力の反映として解釈されるべきであることが示唆された。

Developmental psychologists have argued about when cognitive capacities such as language understanding or theory of mind emerge. These debates often hinge on the concept of "task demands" -- the auxiliary challenges associated with performing a particular evaluation -- that may mask the child's underlying ability. The same issues arise when measuring the capacities of language models (LMs): performance on a task is a function of the model's underlying competence, combined with the model's ability to interpret and perform the task given its available resources. Here, we show that for analogical reasoning, reflective reasoning, word prediction, and grammaticality judgments, evaluation methods with greater task demands yield lower performance than evaluations with reduced demands. This "demand gap" is most pronounced for models with fewer parameters and less training data. Our results illustrate that LM performance should not be interpreted as a direct indication of intelligence (or lack thereof), but as a reflection of capacities seen through the lens of researchers' design choices.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# サブワードトークン化の再検討:大言語モデルにおける接尾辞否定の事例研究

Revisiting subword tokenization: A case study on affixal negation in large language models ( http://arxiv.org/abs/2404.02421v1 )

ライセンス: Link先を確認
Thinh Hung Truong, Yulia Otmakhova, Karin Verspoor, Trevor Cohn, Timothy Baldwin, (参考訳) 本研究では,現代英語大言語モデル (LLM) に対する近似否定の影響を計測する。 接尾辞では、否定的な意味は否定的な形態素を通して表現されるが、トークン化剤は形態学的に妥当でないことが多いため、LSMにとって潜在的に困難である。 我々は,異なるサブワードのトークン化手法を用いたLLMを用いた広範囲な実験を行い,トークン化性能と否定感度の相互作用についていくつかの知見を得た。 トークン化精度と否定検出性能の間にはいくつかの興味深いミスマッチがあるが、全体としては、近似否定の意味を確実に認識できることが示されている。

In this work, we measure the impact of affixal negation on modern English large language models (LLMs). In affixal negation, the negated meaning is expressed through a negative morpheme, which is potentially challenging for LLMs as their tokenizers are often not morphologically plausible. We conduct extensive experiments using LLMs with different subword tokenization methods, which lead to several insights on the interaction between tokenization performance and negation sensitivity. Despite some interesting mismatches between tokenization accuracy and negation detection performance, we show that models can, on the whole, reliably recognize the meaning of affixal negation.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# PEFTと合成データを用いた低リソースLCM分類の強化

Enhancing Low-Resource LLMs Classification with PEFT and Synthetic Data ( http://arxiv.org/abs/2404.02422v1 )

ライセンス: Link先を確認
Parth Patwa, Simone Filice, Zhiyu Chen, Giuseppe Castellucci, Oleg Rokhlenko, Shervin Malmasi, (参考訳) 大規模言語モデル(LLMs)は、テキスト分類タスクにおいて、0ショットまたは数ショットの設定で動作する。 In-Context Learning (ICL) は通常、0ショット設定よりも精度が高いが、入力のプロンプトが長くなるため、効率性は高い。 本稿では,ICLに匹敵する精度を保ちつつ,LLMを0ショットテキスト分類器と同等に効率よくする方法を提案する。 私たちのソリューションは、低リソース設定、すなわちクラス毎に4つの例しか利用できない場合にターゲットとします。 単一のLLMと数ショットの実データを用いて、ロバストで効率的な分類器を作成するために、生成、フィルタリング、パラメータ効率の良いファインチューニングの手順を実行する。 実験結果から,本手法は複数のテキスト分類データセットにおいて競合する結果をもたらすことが示された。

Large Language Models (LLMs) operating in 0-shot or few-shot settings achieve competitive results in Text Classification tasks. In-Context Learning (ICL) typically achieves better accuracy than the 0-shot setting, but it pays in terms of efficiency, due to the longer input prompt. In this paper, we propose a strategy to make LLMs as efficient as 0-shot text classifiers, while getting comparable or better accuracy than ICL. Our solution targets the low resource setting, i.e., when only 4 examples per class are available. Using a single LLM and few-shot real data we perform a sequence of generation, filtering and Parameter-Efficient Fine-Tuning steps to create a robust and efficient classifier. Experimental results show that our approach leads to competitive results on multiple text classification datasets.
翻訳日:2024-04-04 18:49:24 公開日:2024-04-03
# RESSA:スパース・クロスモーダル適応によるスパース・ビジョン・ランゲージモデルの修復

RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation ( http://arxiv.org/abs/2404.02424v1 )

ライセンス: Link先を確認
Shwai He, Tianlong Chen, (参考訳) VLM(Vision-Language Models)は、複数のモダリティから多様な情報を統合することで、様々なタスクにおいて顕著な成功を収めている。 しかしながら、大規模なビジョンと言語モデルを含むVLMのデプロイは、リソース制約のあるシナリオにおいて課題となる。 プルーニングとファインタニングは、より小さなモデルサイズで性能を維持するための潜在的ソリューションを提供するが、VLMへのその応用は、比較的未探索のままであり、異なるモダリティ固有のモデルに空間を分散する方法と、刈り取ったスパースVLMの性能の修復方法の2つの主要な疑問が提示されている。 最初の質問に答えるために、我々はVLMプルーニングの予備的研究を行い、同じ空間比のプルーニングビジョンモデルと言語モデルがほぼ最適性能に寄与することを発見した。 2つ目の疑問は、微調整された単調なスパースモデルとは異なり、スパースVLMはモダリティ間の相互作用を伴い、実行後のパフォーマンス修復に特別な技術を必要とすることである。 さらに、スパースモデルの性能を改善するためにパラメータ効率の高いLoRAファインタニングが提案されているが、重み付けの重大な課題は、スパースモデルとスパースモデルとの密接なLoRAモジュールの不整合性によるものである。 これらの課題に対処するため,スパース・クロスモダリティ適応(RESSA)によるスパース・ビジョン・ランゲージ・モデルの改良を提案する。 RESSAはクロスモダリティの微調整を利用してタスク固有の性能を高め、元の高密度モデルからの知識蒸留を促進する。 さらに,SparseLoRAを導入し,LoRA重みに直接スパシティを適用し,スパースモデルとのシームレスな統合を実現する。 実験結果はRESSAの有効性を検証し,2:4間隔での11.3\%改善や,非構造性70\%間隔での47.6\%向上などの顕著な改善を示した。

Vision-Language Models (VLMs), integrating diverse information from multiple modalities, have shown remarkable success across various tasks. However, deploying VLMs, comprising large-scale vision and language models poses challenges in resource-constrained scenarios. While pruning followed by finetuning offers a potential solution to maintain performance with smaller model sizes, its application to VLMs remains relatively unexplored, presenting two main questions: how to distribute sparsity across different modality-specific models, and how to repair the performance of pruned sparse VLMs. To answer the first question, we conducted preliminary studies on VLM pruning and found that pruning vision models and language models with the same sparsity ratios contribute to nearly optimal performance. For the second question, unlike finetuning unimodal sparse models, sparse VLMs involve cross-modality interactions, requiring specialized techniques for post-pruning performance repair. Moreover, while parameter-efficient LoRA finetuning has been proposed to repair the performance of sparse models, a significant challenge of weights merging arises due to the incompatibility of dense LoRA modules with sparse models that destroy the sparsity of pruned models. To tackle these challenges, we propose to Repair Sparse Vision-Language Models via Sparse Cross-modality Adaptation (RESSA). RESSA utilizes cross-modality finetuning to enhance task-specific performance and facilitate knowledge distillation from original dense models. Additionally, we introduce SparseLoRA, which applies sparsity directly to LoRA weights, enabling seamless integration with sparse models. Our experimental results validate the effectiveness of RESSA, showcasing significant enhancements, such as an 11.3\% improvement under 2:4 sparsity and a remarkable 47.6\% enhancement under unstructured 70\% sparsity.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# Novel_Authentication_Protocols_Tailored_for_Ambient_IoT_Devices_in_3GPP_5G_Networks

Novel_Authentication_Protocols_Tailored_for_Ambient_IoT_Devices_in_3GPP_5G_Networks ( http://arxiv.org/abs/2404.02425v1 )

ライセンス: Link先を確認
Xiongpeng Ren, Jin Cao, Hui Li, Yinghui Zhang, (参考訳) AIoTデバイスは3GPP組織内で大きな注目を集めている。 これらのデバイスは、従来のIoTデバイスと区別され、追加のバッテリーに依存したり、極めて小さなバッテリー容量を持ち、低コスト、デプロイが容易、メンテナンス不要な操作などの機能を提供する。 認証とセキュアな送信は、AIoTデバイスの基本的なセキュリティ要件である。 しかしながら、既存の標準セキュリティメカニズムは、複雑なキー階層とマルチラウンドインタラクションのために、AIoTデバイス用に特別に設計されていないため、適さない。 さらに、AIoTデバイスはより多様な通信トポロジを持つ。 そこで本研究では,様々な技術やアルゴリズムをベースとした超軽量アクセス認証プロトコルを提案する。 実AIoTデバイスによく似たチップを用いた解析とシミュレーション実験により,既存の標準プロトコルがそのようなデバイスに適さないことを示すとともに,計算時間とエネルギー消費の点で,既存の標準プロトコルよりも優れていることを示す。 提案されたプロトコルの実行が成功した後、アプリケーションデータのセキュアな送信を実現し、パフォーマンスとセキュリティのバランスを崩すことができる。

AIoT devices have attracted significant attention within the 3GPP organization. These devices, distinguished from conventional IoT devices, do not rely on additional batteries or have extremely small battery capacities, offering features such as low cost, easy deployment, and maintenance-free operation. Authentication and secure transmission are fundamental security requirements for AIoT devices. However, existing standard security mechanisms are not specifically designed for AIoT devices due to their complex key hierarchies and multi-round interactions, making them unsuitable. Besides, AIoT devices would have more various communication topologies. Therefore, we propose dedicated ultra-lightweight access authentication protocols based on various technologies and algorithms to serve as a forward-looking reference for future research and standardization. Analysis and simulation experiments using chips that closely resemble real AIoT devices, demonstrate that the existing standard protocols are indeed not suitable for such devices, and our protocols outperform existing standard protocols in terms of computational time and energy consumption. After the successful execution of proposed protocols, they can achieve secure transmission of application data, striking a balance between performance and security.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# AD4RL: バリューベースデータセットによるオフライン強化学習のための自動駆動ベンチマーク

AD4RL: Autonomous Driving Benchmarks for Offline Reinforcement Learning with Value-based Dataset ( http://arxiv.org/abs/2404.02429v1 )

ライセンス: Link先を確認
Dongsu Lee, Chanin Eom, Minhae Kwon, (参考訳) オフライン強化学習は、事前収集された大規模なデータセットを使用することで実用性を高めることによって、有望な技術として浮上している。 その実用的利点にもかかわらず、オフライン強化学習におけるほとんどのアルゴリズム開発研究は、依然として合成データセットを用いたゲームタスクに依存している。 このような制約に対処するため,本論文はオフライン強化学習研究のための自律走行データセットとベンチマークを提供する。 現実世界の人間のドライバーのデータセットを含む19のデータセットと、一般的なオフライン強化学習アルゴリズム7つを、現実的な3つのシナリオで提供しています。 また、アルゴリズム設計における参照フレームワークとして機能し、さまざまなシナリオで効果的に動作する統合された意思決定プロセスモデルも提供します。 本研究は,既存の強化学習手法の実践的側面を探求するため,コミュニティにおけるさらなるコラボレーションに向けた基礎研究である。 データセットとコードはhttps://sites.google.com/view/ad4rl.orgで参照できる。

Offline reinforcement learning has emerged as a promising technology by enhancing its practicality through the use of pre-collected large datasets. Despite its practical benefits, most algorithm development research in offline reinforcement learning still relies on game tasks with synthetic datasets. To address such limitations, this paper provides autonomous driving datasets and benchmarks for offline reinforcement learning research. We provide 19 datasets, including real-world human driver's datasets, and seven popular offline reinforcement learning algorithms in three realistic driving scenarios. We also provide a unified decision-making process model that can operate effectively across different scenarios, serving as a reference framework in algorithm design. Our research lays the groundwork for further collaborations in the community to explore practical aspects of existing reinforcement learning methods. Dataset and codes can be found in https://sites.google.com/view/ad4rl.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# デコーダに基づく事前学習型言語モデルの多言語能力について:言語特異的ニューロンの探索と制御

On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons ( http://arxiv.org/abs/2404.02431v1 )

ライセンス: Link先を確認
Takeshi Kojima, Itsuki Okimura, Yusuke Iwasawa, Hitomi Yanaka, Yutaka Matsuo, (参考訳) 現在のデコーダベースの事前学習言語モデル(PLM)は、多言語機能の実現に成功している。 しかし、これらのモデルがどのように多言語性を扱うのかは定かではない。 多言語デコーダを用いたPLMのニューロンレベルの内部挙動を解析し、デコーダのみの多言語PLM内で「各言語に不規則に」発火するニューロンの存在について検討した。 我々は、英語、ドイツ語、フランス語、スペイン語、中国語、日本語の6つの言語を分析し、言語固有のニューロンがユニークであることを示し、言語間でわずかに重複している(5%)。 これらのニューロンは主にモデルの最初の層と最後の層に分布する。 この傾向は言語やモデル間で一貫している。 さらに、各モデルにおいて、推論中に全ニューロンの1%未満を改ざんし、少数の言語固有のニューロンとの改ざんが、テキスト生成におけるターゲット言語発生の確率を大幅に変化させることを示した。

Current decoder-based pre-trained language models (PLMs) successfully demonstrate multilingual capabilities. However, it is unclear how these models handle multilingualism. We analyze the neuron-level internal behavior of multilingual decoder-based PLMs, Specifically examining the existence of neurons that fire ``uniquely for each language'' within decoder-only multilingual PLMs. We analyze six languages: English, German, French, Spanish, Chinese, and Japanese, and show that language-specific neurons are unique, with a slight overlap (< 5%) between languages. These neurons are mainly distributed in the models' first and last few layers. This trend remains consistent across languages and models. Additionally, we tamper with less than 1% of the total neurons in each model during inference and demonstrate that tampering with a few language-specific neurons drastically changes the probability of target language occurrence in text generation.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# ナラティブから数値へ:言語モデル予測を用いた検証的推論

From Narratives to Numbers: Valid Inference Using Language Model Predictions from Verbal Autopsy Narratives ( http://arxiv.org/abs/2404.02438v1 )

ライセンス: Link先を確認
Shuxian Fan, Adam Visokay, Kentaro Hoffman, Stephen Salerno, Li Liu, Jeffrey T. Leek, Tyler H. McCormick, (参考訳) ほとんどの死亡が医療システム外で発生している環境では、口頭解剖(VAs)が死因の傾向を監視する一般的なツールである。 VAは、被疑者のCODを予測するために使用される、生き残った介護者や親戚とのインタビューである。 VAを研究者や政策立案者のための実用的な洞察に変えるには2つのステップが必要だ 一 VAインタビューによるCODの予測及び予測 (II)CODの予測による推定を行う(例:死亡例を用いて、人口統計因子による原因の分解をモデル化する)。 本稿では,現在最先端のNLP技術を用いて,自由形式のテキストから予測される結果(CODの場合)を用いた有効推論手法を開発する。 この手法はMultiPPI++と呼ばれ、「予測駆動推論」の最近の研究を多項分類に拡張する。 我々は、COD予測に一連のNLP技術を活用し、VAデータの実証分析を通じて、輸送可能性問題に対処するためのアプローチの有効性を実証する。 multiPPI++ は、どの NLP モデルが予測を作成したかに関わらず、GPT-4-32k のようなより正確な予測器や KNN のようなより正確な予測器によって生成されたかに関わらず、基底真理推定を復元する。 本研究は, 公衆衛生意思決定における推論訂正の実践的重要性を実証し, 推論タスクが最終目標である場合, NLPアルゴリズムによらず, 少量の文脈的関連性があり, 高品質なラベル付きデータが不可欠であることが示唆された。

In settings where most deaths occur outside the healthcare system, verbal autopsies (VAs) are a common tool to monitor trends in causes of death (COD). VAs are interviews with a surviving caregiver or relative that are used to predict the decedent's COD. Turning VAs into actionable insights for researchers and policymakers requires two steps (i) predicting likely COD using the VA interview and (ii) performing inference with predicted CODs (e.g. modeling the breakdown of causes by demographic factors using a sample of deaths). In this paper, we develop a method for valid inference using outcomes (in our case COD) predicted from free-form text using state-of-the-art NLP techniques. This method, which we call multiPPI++, extends recent work in "prediction-powered inference" to multinomial classification. We leverage a suite of NLP techniques for COD prediction and, through empirical analysis of VA data, demonstrate the effectiveness of our approach in handling transportability issues. multiPPI++ recovers ground truth estimates, regardless of which NLP model produced predictions and regardless of whether they were produced by a more accurate predictor like GPT-4-32k or a less accurate predictor like KNN. Our findings demonstrate the practical importance of inference correction for public health decision-making and suggests that if inference tasks are the end goal, having a small amount of contextually relevant, high quality labeled data is essential regardless of the NLP algorithm.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# 機械学習攻撃に対する耐性を有するフォトニックな物理的に不可避な機能の設計

Designing a Photonic Physically Unclonable Function Having Resilience to Machine Learning Attacks ( http://arxiv.org/abs/2404.02440v1 )

ライセンス: Link先を確認
Elena R. Henderson, Jessie M. Henderson, Hiva Shahoei, William V. Oxford, Eric C. Larson, Duncan L. MacFarlane, Mitchell A. Thornton, (参考訳) 物理的に拘束不能な関数(PUF)は「指紋」として機能するように設計されている。 入力問題を考えると、PUF回路は、root-of-trustアプリケーションや他のハードウェアレベルのサイバーセキュリティアプリケーションのような状況での使用に対して予測不可能な応答を生成するべきである。 PUFは通常、集積回路(IC)内に存在しているサブ回路であり、従来のIC PUFはよく理解されているが、機械学習(ML)ベースの攻撃など、悪意のあるエクスプロイトに対して脆弱性があることが証明されている。 このような攻撃は、比較的少数のチャレンジ-レスポンスペアが事前に知られている場合でも、しばしば機能するように設計されているため、予防が困難である。 したがって、よりレジリエントなPUF設計の必要性とML攻撃の感受性の分析の両方が要求される。 従来、フォトニック集積回路(PIC)のためのPUFを開発した。 PIC PUFは製造開始時の耐久性から予測不可能な応答を発生させるだけでなく、純粋な電子IC PUFよりも電磁波の盗聴攻撃の危険性も低い。 本研究では,MLベースの攻撃を受ける際に提案したフォトニックPUFのレジリエンスを解析する。 具体的には、ML攻撃の訓練に必要な大規模なデータセットを生成するための計算PUFモデルを記述し、モデルの品質を分析し、MLベースの攻撃に対するPUFの感受性について論じる。 モデリングされたPUFは、均一なホワイトノイズに類似した分布を生成し、課題と応答の潜伏関係を利用したニューラルネットワークベースの攻撃に対するレジリエンスを示す。 予備的な分析では、PUFは生成する敵ネットワークに類似したレジリエンスを示しており、継続的な開発は、より洗練されたMLアプローチがPUFを妥協し、もしそうであれば、設計変更がレジリエンスをどのように改善するかを示すだろう。

Physically unclonable functions (PUFs) are designed to act as device 'fingerprints.' Given an input challenge, the PUF circuit should produce an unpredictable response for use in situations such as root-of-trust applications and other hardware-level cybersecurity applications. PUFs are typically subcircuits present within integrated circuits (ICs), and while conventional IC PUFs are well-understood, several implementations have proven vulnerable to malicious exploits, including those perpetrated by machine learning (ML)-based attacks. Such attacks can be difficult to prevent because they are often designed to work even when relatively few challenge-response pairs are known in advance. Hence the need for both more resilient PUF designs and analysis of ML-attack susceptibility. Previous work has developed a PUF for photonic integrated circuits (PICs). A PIC PUF not only produces unpredictable responses given manufacturing-introduced tolerances, but is also less prone to electromagnetic radiation eavesdropping attacks than a purely electronic IC PUF. In this work, we analyze the resilience of the proposed photonic PUF when subjected to ML-based attacks. Specifically, we describe a computational PUF model for producing the large datasets required for training ML attacks; we analyze the quality of the model; and we discuss the modeled PUF's susceptibility to ML-based attacks. We find that the modeled PUF generates distributions that resemble uniform white noise, explaining the exhibited resilience to neural-network-based attacks designed to exploit latent relationships between challenges and responses. Preliminary analysis suggests that the PUF exhibits similar resilience to generative adversarial networks, and continued development will show whether more-sophisticated ML approaches better compromise the PUF and -- if so -- how design modifications might improve resilience.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# 教育における授業品質測定における言語モデルの利用の約束と落とし穴

The Promises and Pitfalls of Using Language Models to Measure Instruction Quality in Education ( http://arxiv.org/abs/2404.02444v1 )

ライセンス: Link先を確認
Paiheng Xu, Jing Liu, Nathan Jones, Julie Cohen, Wei Ai, (参考訳) 授業の質を評価することは、教育システムにおける改善努力の基本的な要素である。 しかし、従来の手動評価は高価で主観的で、観察者の専門知識や慣用的要因に大きく依存しているため、教師の時間的・頻繁なフィードバックを妨げている。 本研究は,主に単体で低推論の授業実践に焦点を当てた先行研究と異なり,NLP(Natural Language Processing, 自然言語処理)技術を用いて,複数の高推論の指導実践を2つの異なる教育環境において評価する最初の研究である。 また、NLPを応用して、特別なニーズを持つ学生に特に効果的であると広く認められている教育実践を測定する最初の研究である。 ノイズや長い入力データ、人間の評価の高度に歪んだ分布など、NLPに基づく指導分析に固有の2つの課題に直面している。 予備学習型言語モデル (PLM) は, より離散的で推論が低い変数に対して, より複雑な教育実践によってその効果が低下し, 人間のレーダの合意レベルに匹敵する性能を示すことが示唆された。 興味深いことに、教師の発話のみを入力として使用すると、学生中心の変数に対して強い結果が得られ、高品質な音声データを収集して翻訳することの難しさに対する共通の懸念が軽減される。 本研究は,教育領域における現在のNLP技術の可能性と限界を浮き彫りにして,さらなる探究の道を開くものである。

Assessing instruction quality is a fundamental component of any improvement efforts in the education system. However, traditional manual assessments are expensive, subjective, and heavily dependent on observers' expertise and idiosyncratic factors, preventing teachers from getting timely and frequent feedback. Different from prior research that mostly focuses on low-inference instructional practices on a singular basis, this paper presents the first study that leverages Natural Language Processing (NLP) techniques to assess multiple high-inference instructional practices in two distinct educational settings: in-person K-12 classrooms and simulated performance tasks for pre-service teachers. This is also the first study that applies NLP to measure a teaching practice that is widely acknowledged to be particularly effective for students with special needs. We confront two challenges inherent in NLP-based instructional analysis, including noisy and long input data and highly skewed distributions of human ratings. Our results suggest that pretrained Language Models (PLMs) demonstrate performances comparable to the agreement level of human raters for variables that are more discrete and require lower inference, but their efficacy diminishes with more complex teaching practices. Interestingly, using only teachers' utterances as input yields strong results for student-centered variables, alleviating common concerns over the difficulty of collecting and transcribing high-quality student speech data in in-person teaching settings. Our findings highlight both the potential and the limitations of current NLP techniques in the education domain, opening avenues for further exploration.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# 白箱変圧器を用いた構造拡散による仮面補完

Masked Completion via Structured Diffusion with White-Box Transformers ( http://arxiv.org/abs/2404.02446v1 )

ライセンス: Link先を確認
Druv Pai, Ziyang Wu, Sam Buchanan, Yaodong Yu, Yi Ma, (参考訳) 現代の学習フレームワークは、しばしば、大量のラベルのないデータでディープニューラルネットワークをトレーニングし、単純なプレテキストタスクを解くことによって表現を学び、その表現を下流タスクの基礎として使用する。 これらのネットワークは経験的に設計されており、通常は解釈できないため、それらの表現は構造化されておらず、設計は冗長である可能性がある。 ホワイトボックスのディープネットワークでは、各レイヤがデータの構造を明確に識別し、変換し、有望な代替手段を提供する。 しかし、既存のホワイトボックスアーキテクチャは、分類などのラベル付きデータによる教師付き設定でのみ、大規模に機能することが示されている。 本研究では,大規模非教師付き表現学習に適用可能なホワイトボックス設計パラダイムの最初のインスタンス化を提案する。 我々は、拡散、圧縮、および(マスクされた)完了の基本的な接続を利用して、各層の役割が数学的に完全に解釈可能なCRATE-MAEと呼ばれるディープトランスフォーマーのようなマスク付きオートエンコーダアーキテクチャを導出し、データ分布を構造化表現へ変換する。 大規模な経験的評価は、我々の分析的な洞察を裏付ける。 CRATE-MAEは、同じモデル構成の標準的なマスク付きオートエンコーダと比較して、パラメータの30%程度しか使用せず、大規模なデータセット上で非常に有望なパフォーマンスを示す。 CRATE-MAEによって学習された表現は明示的な構造を持ち、意味的な意味も含んでいる。 コードはhttps://github.com/Ma-Lab-Berkeley/CRATEで入手できる。

Modern learning frameworks often train deep neural networks with massive amounts of unlabeled data to learn representations by solving simple pretext tasks, then use the representations as foundations for downstream tasks. These networks are empirically designed; as such, they are usually not interpretable, their representations are not structured, and their designs are potentially redundant. White-box deep networks, in which each layer explicitly identifies and transforms structures in the data, present a promising alternative. However, existing white-box architectures have only been shown to work at scale in supervised settings with labeled data, such as classification. In this work, we provide the first instantiation of the white-box design paradigm that can be applied to large-scale unsupervised representation learning. We do this by exploiting a fundamental connection between diffusion, compression, and (masked) completion, deriving a deep transformer-like masked autoencoder architecture, called CRATE-MAE, in which the role of each layer is mathematically fully interpretable: they transform the data distribution to and from a structured representation. Extensive empirical evaluations confirm our analytical insights. CRATE-MAE demonstrates highly promising performance on large-scale imagery datasets while using only ~30% of the parameters compared to the standard masked autoencoder with the same model configuration. The representations learned by CRATE-MAE have explicit structure and also contain semantic meaning. Code is available at https://github.com/Ma-Lab-Berkeley/CRATE .
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# クロスカラー空間像融合法と量子古典的スタックアンサンブル法による乳癌組織像の新しい分類法

A Novel Approach to Breast Cancer Histopathological Image Classification Using Cross-Colour Space Feature Fusion and Quantum-Classical Stack Ensemble Method ( http://arxiv.org/abs/2404.02447v1 )

ライセンス: Link先を確認
Sambit Mallick, Snigdha Paul, Anindya Sen, (参考訳) 乳癌の分類は、タイムリーな診断と効果的な治療を確実にするための重要な柱である。 本研究は, 胸腺癌分類の精度を高めるために, 色空間アンサンブルと量子古典的積み重ねの相乗的能力を活用することの意義を, 病理組織像を用いて明らかにした。 著者らは、RGB、HSV、CIE L*u*vの異なる色空間を探索することにより、高度な方法論によってガイドされた包括的調査を開始した。 DenseNet121アーキテクチャを特徴抽出に利用して、Random Forest、SVM、QSVC、VQCの分類器の堅牢性を活用している。 本研究は,色空間アンサンブルに特有の特徴融合技術を含む。 このアプローチは、乳がん分類の理解を深めるだけでなく、パーソナライズされた医療評価においてもマイルストーンとなる。 積層による量子および古典的分類器の融合は強力な触媒として出現し、個々の分類器固有の制約を効果的に緩和し、より信頼性が高く洗練された乳がんの同定への堅牢な道を歩む。 厳密な実験と精巧な分析を通じて、RGBとHSV、RGBとCIE L*u*vとの融合は、単位値に近い分類精度を示す。 このことは、様々な色空間の融合と量子や古典的な領域のシナジーが融合し、医療診断の新しい地平を築き上げるという、我々のアプローチの変革的ポテンシャルを浮き彫りにしている。 このように、この研究の意味は医学分野にわたって広がり、診断精度と治療効果を向上させるための有望な道を提供する。

Breast cancer classification stands as a pivotal pillar in ensuring timely diagnosis and effective treatment. This study with histopathological images underscores the profound significance of harnessing the synergistic capabilities of colour space ensembling and quantum-classical stacking to elevate the precision of breast cancer classification. By delving into the distinct colour spaces of RGB, HSV and CIE L*u*v, the authors initiated a comprehensive investigation guided by advanced methodologies. Employing the DenseNet121 architecture for feature extraction the authors have capitalized on the robustness of Random Forest, SVM, QSVC, and VQC classifiers. This research encompasses a unique feature fusion technique within the colour space ensemble. This approach not only deepens our comprehension of breast cancer classification but also marks a milestone in personalized medical assessment. The amalgamation of quantum and classical classifiers through stacking emerges as a potent catalyst, effectively mitigating the inherent constraints of individual classifiers, paving a robust path towards more dependable and refined breast cancer identification. Through rigorous experimentation and meticulous analysis, fusion of colour spaces like RGB with HSV and RGB with CIE L*u*v, presents an classification accuracy, nearing the value of unity. This underscores the transformative potential of our approach, where the fusion of diverse colour spaces and the synergy of quantum and classical realms converge to establish a new horizon in medical diagnostics. Thus the implications of this research extend across medical disciplines, offering promising avenues for advancing diagnostic accuracy and treatment efficacy.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# 緊急給電における電気自動車のルーティング問題--テレコム基地局の救済に向けて

Electric Vehicle Routing Problem for Emergency Power Supply: Towards Telecom Base Station Relief ( http://arxiv.org/abs/2404.02448v1 )

ライセンス: Link先を確認
Daisuke Kikuta, Hiroki Ikeuchi, Kengo Tajiri, Yuta Toyama, Yuusuke Nakano, (参考訳) 当社は、通信事業者として、停電時においても、通信サービスを維持するための重要な使命を持っています。 ミッションを達成するためには、通信基地局のパワーを維持することが不可欠である。 ここでは、電気自動車(EV)が基地局に直接電力を供給し、その場所を走行するソリューションについて考察する。 目標は、すべてのEVの総走行距離と、ダウンした基地局の数の両方を最小化するEVルートを見つけることである。 本稿では、このルーティング問題をEVRP(EVRP)の新たな変種として定式化し、ルールベースの車両セレクタと強化学習(RL)ベースのノードセレクタを組み合わせた解法を提案する。 車両セレクタのルールは、選択されたEVが動き始めると、正確な環境状態を保証する。 さらに、RLモデルによるノード選択により、緊急時に重要な高速経路生成が可能となる。 合成データセットと実データセットの両方で解法を評価する。 その結果, 目的値や計算時間の観点から, 解法はベースラインよりも優れていた。 さらに,解解器の一般化と拡張性を解析し,目に見えない設定や大規模問題に対する能力を実証する。 https://ntt-dkiku.github.io/rl-evrpeps.com/vc/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/ s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s

As a telecom provider, our company has a critical mission to maintain telecom services even during power outages. To accomplish the mission, it is essential to maintain the power of the telecom base stations. Here we consider a solution where electric vehicles (EVs) directly supply power to base stations by traveling to their locations. The goal is to find EV routes that minimize both the total travel distance of all EVs and the number of downed base stations. In this paper, we formulate this routing problem as a new variant of the Electric Vehicle Routing Problem (EVRP) and propose a solver that combines a rule-based vehicle selector and a reinforcement learning (RL)-based node selector. The rule of the vehicle selector ensures the exact environmental states when the selected EV starts to move. In addition, the node selection by the RL model enables fast route generation, which is critical in emergencies. We evaluate our solver on both synthetic datasets and real datasets. The results show that our solver outperforms baselines in terms of the objective value and computation time. Moreover, we analyze the generalization and scalability of our solver, demonstrating the capability toward unseen settings and large-scale problems. Check also our project page: https://ntt-dkiku.github.io/rl-evrpeps.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# II型フォン・ノイマン代数におけるエンタングルメントエントロピー:ダブルスケールSYKの例

Entanglement entropy in type II$_1$ von Neumann algebra: examples in Double-Scaled SYK ( http://arxiv.org/abs/2404.02449v1 )

ライセンス: Link先を確認
Haifeng Tang, (参考訳) II$_1$フォン・ノイマン代数の興味深い特徴は、混合状態のエントロピーが負であることである。 フォン・ノイマン代数の型分類とそのホログラフィーにおける帰結は近年広く研究されているが、II$_1$代数を持ついくつかの物理的に興味深いモデルにおいてエントロピーの明示的な計算は行われていない。 本稿では、固定長状態 $\{|n\rangle\}$ の絡み合いエントロピー $S_n$ について、最近II$_1$フォン・ノイマン代数を示すことが示されているダブルスケール Sachdev-Ye-Kitaev モデルで検討する。 これらの状態は、0-粒子コードヒルベルト空間の直交基底を与える。 我々は、$S_n$ とその R'enyi 一般化を DSSYK モデルの様々な極限において、$q\in[0,1]$ の範囲で体系的に研究する。 我々は、ランダム行列理論の極限 (q=0$) と SYK$_2$制限 (q=1$) に対して、大きな$n$ で$S_n^{(m)}$ のスケーリング挙動に対するエキゾチックな解析式を得る。 次に,ジャイフ・タイテルボイム重力におけるAdS$_2$境界を一定の長さで接続する測地線ワームホールとなる3つのスケーリング限界に潜る。 半古典的状態においては, 絡み合いエントロピーの境界計算とジオデシックの中心のディラトン値とを, 龍高柳公式の非自明なチェックとして一致させる。

An intriguing feature of type II$_1$ von Neumann algebra is that the entropy of the mixed states is negative. Although the type classification of von Neumann algebra and its consequence in holography have been extensively explored recently, there has not been an explicit calculation of entropy in some physically interesting models with type II$_1$ algebra. In this paper, we study the entanglement entropy $S_n$ of the fixed length state $\{|n\rangle\}$ in Double-Scaled Sachdev-Ye-Kitaev model, which has been recently shown to exhibit type II$_1$ von Neumann algebra. These states furnish an orthogonal basis for 0-particle chord Hilbert space. We systematically study $S_n$ and its R\'enyi generalizations $S_n^{(m)}$ in various limit of DSSYK model, ranging $q\in[0,1]$. We obtain exotic analytical expressions for the scaling behavior of $S_n^{(m)}$ at large $n$ for random matrix theory limit ($q=0$) and SYK$_2$ limit ($q=1$), for the former we observe highly non-flat entanglement spectrum. We then dive into triple scaling limits where the fixed chord number states become the geodesic wormholes with definite length connecting left/right AdS$_2$ boundary in Jackiw-Teitelboim gravity. In semi-classical regime, we match the boundary calculation of entanglement entropy with the dilaton value at the center of geodesic, as a nontrivial check of the Ryu-Takayanagi formula.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# 入出力合成によるアルゴリズム誘導のためのタスク非依存アーキテクチャ

Task Agnostic Architecture for Algorithm Induction via Implicit Composition ( http://arxiv.org/abs/2404.02450v1 )

ライセンス: Link先を確認
Sahil J. Sindhi, Ignas Budvytis, (参考訳) コンピュータビジョン、音声、自然言語処理などの応用機械学習の分野は、ドメイン特化ソリューションを構築している。 現在、我々は、大規模言語モデルとマルチモーダル基礎モデルによって駆動される、より汎用的なアーキテクチャの開発に対する反対の傾向を目撃しています。 これらのアーキテクチャは、以前は見つからず、複数のモダリティにまたがる入力を使用するものを含む、さまざまなタスクに取り組むように設計されている。 この一般化の傾向を極端に考えると、すべてのタスクを解くことができる単一のディープネットワークアーキテクチャの可能性が示唆される。 本研究の目的は,このような統一アーキテクチャの構築を探求することであり,その構築方法に関する理論的枠組みを提案することである。 我々の提案は以下の前提に基づいている。 第一に、タスクは、典型的にはシーケンシャルに動作する従来のコンピューティングハードウェアのコードで実装される一連の命令に従うことで解決される。 第二に、最近のジェネレーティブAI、特にトランスフォーマーベースのモデルは、幅広い領域のアルゴリズムを構築することができるアーキテクチャとしての可能性を示している。 例えば、GPT-4は、以前に学習したアルゴリズム上のフラグメントから新しいソリューションを構成する能力以外に、説明が難しい新しいタスクのコンテキスト内学習において、例外的な能力を示す。 第三に、真に一般化されたネットワークを開発する上で欠落する主な要素は、ネットワークの内部フォワードパスにおいて、アルゴリズムの学習したサブステップとその(単純)構成を自己整合的に入力するための効率的なアプローチである。 本研究は,トランスフォーマーをベースとしたアルゴリズム合成における現在の機能と限界を考察し,これらの制約を克服するための離散学習フレームワークとして,トランスフォーマーのようなアーキテクチャを提案する。

Different fields in applied machine learning such as computer vision, speech or natural language processing have been building domain-specialised solutions. Currently, we are witnessing an opposing trend towards developing more generalist architectures, driven by Large Language Models and multi-modal foundational models. These architectures are designed to tackle a variety of tasks, including those previously unseen and using inputs across multiple modalities. Taking this trend of generalization to the extreme suggests the possibility of a single deep network architecture capable of solving all tasks. This position paper aims to explore developing such a unified architecture and proposes a theoretical framework of how it could be constructed. Our proposal is based on the following assumptions. Firstly, tasks are solved by following a sequence of instructions, typically implemented in code for conventional computing hardware, which inherently operates sequentially. Second, recent Generative AI, especially Transformer-based models, demonstrate potential as an architecture capable of constructing algorithms for a wide range of domains. For example, GPT-4 shows exceptional capability at in-context learning of novel tasks which is hard to explain in any other way than the ability to compose novel solutions from fragments on previously learnt algorithms. Third, the observation that the main missing component in developing a truly generalised network is an efficient approach for self-consistent input of previously learnt sub-steps of an algorithm and their (implicit) composition during the network's internal forward pass. Our exploration delves into current capabilities and limitations of Transformer-based and other methods in efficient and correct algorithm composition and proposes a Transformer-like architecture as well as a discrete learning framework to overcome these limitations.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# ブロックチェーン増殖の社会的意味

The Societal Implications of Blockchain Proliferation ( http://arxiv.org/abs/2404.02451v1 )

ライセンス: Link先を確認
Cory Cherven, (参考訳) ブロックチェーンとその分散型台帳技術は、世界中の消費者に多大な影響を与えている。 XRPのような暗号通貨は、外国の送金が経済を活性化させるメキシコなどの回廊をターゲットにして、送金業界における重要な問題を解決する。 ブロックチェーンのリバタリアン原則は、腐敗したインフラストラクチャを信頼ベースのソリューションに置き換えることで、第三世界の生活を変える可能性を秘めている。 この技術は、生活を大幅に改善するために利用できるが、多くの破壊的な応用がある。 BitcoinのブロックチェーンとSilk Roadのような悪名高いWebサイトは、ドラッグやマネーロンダリング、テロリズムなどの地下市場を加速させ、デジタル通貨法を複雑にしている。 暗号通貨の負の環境効果は、世界的な気候変動に大きく貢献する可能性がある。 否定的だが、暗号通貨はいまだに技術開発において貴重な商品であることが証明されている。

Blockchain and its distributed ledger technology have far-reaching implications for consumers across the world. Cryptocurrencies like XRP work to solve key issues in the remittance industry, targeting corridors like Mexico where foreign remittance fuels economies. Blockchain's libertarian principles have the potential to change lives in the third world, replacing corrupt infrastructure with trust-based solutions. While this technology can be used to significantly improve lives, it has a wealth of destructive applications. Bitcoin's blockchain and nefarious websites like the Silk Road have fueled an underground market of drugs, money laundering, and terrorism, complicating digital currency legislation. The negative environmental effects of cryptocurrency may also contribute significantly to global climate change. Negatives aside, cryptocurrency still proves to be a valuable commodity in technological development.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# 文脈内ワンショットによる適応的言語間テキスト分類

Adaptive Cross-lingual Text Classification through In-Context One-Shot Demonstrations ( http://arxiv.org/abs/2404.02452v1 )

ライセンス: Link先を確認
Emilio Villa-Cueva, A. Pastor López-Monroy, Fernando Sánchez-Vega, Thamar Solorio, (参考訳) Zero-Shot Cross-lingual Transfer (ZS-XLT)は、ソース言語でトレーニングされたモデルを使用して、他の言語で予測を行う。 これを軽減するために、ターゲット言語の例を使用して、その後の適応を通じて、さらなる改善が達成される。 本稿では,IC-XLT(In-Context Cross-lingual Transfer)を導入して,分類タスクにおけるワンショット言語間移動にICT(In-Context Tuning)を利用する。 新たな概念は、コンテキストサンプルから学習するためにモデルをトレーニングし、その言語でOne-Shotコンテキストのデモを予測することによって、ターゲット言語への推論中にそれを適応させる、というものだ。 この結果から, IC-XLT はmT5モデルの言語横断性を向上し, 微調整により適応したZero およびFew-shot シナリオにおいて, プロンプトベースモデルよりも優れていることがわかった。 さらに、ソースコードデータに制限がある場合、IC-XLTで使用される微調整フレームワークは、ソース言語のトレーニングデータよりもはるかに多く、プロンプトベースの微調整と互換性があることを示す。

Zero-Shot Cross-lingual Transfer (ZS-XLT) utilizes a model trained in a source language to make predictions in another language, often with a performance loss. To alleviate this, additional improvements can be achieved through subsequent adaptation using examples in the target language. In this paper, we exploit In-Context Tuning (ICT) for One-Shot Cross-lingual transfer in the classification task by introducing In-Context Cross-lingual Transfer (IC-XLT). The novel concept involves training a model to learn from context examples and subsequently adapting it during inference to a target language by prepending a One-Shot context demonstration in that language. Our results show that IC-XLT successfully leverages target-language examples to improve the cross-lingual capabilities of the evaluated mT5 model, outperforming prompt-based models in the Zero and Few-shot scenarios adapted through fine-tuning. Moreover, we show that when source-language data is limited, the fine-tuning framework employed for IC-XLT performs comparably to prompt-based fine-tuning with significantly more training data in the source language.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# 鍛造政策の鉄筋強度測定技術

Techniques for Measuring the Inferential Strength of Forgetting Policies ( http://arxiv.org/abs/2404.02454v1 )

ライセンス: Link先を確認
Patrick Doherty, Andrzej Szalas, (参考訳) 知識表現を忘れる技術は、広く応用された強力で有用な知識工学ツールであることが示されている。 しかし、忘れることの異なるポリシー、または異なる忘れることのオペレータの使用が、元の理論の推論強度にどのように影響するかについての研究はほとんど行われていない。 本研究の目的は,モデルカウントと確率論からの直観に基づく推論強度の変化を測定するための損失関数を定義することである。 このような損失対策の特性を考察し,Problog を用いた損失対策の計算に実用的知識工学ツールを提案する。 本稿では,異なる忘れ方策の強みを研究・決定する作業方法論と,Problogを用いた理論的結果の適用方法を示す具体例を含む。 忘れることに重点を置いているが、結果はずっと一般的であり、他の分野にも広く適用されるべきである。

The technique of forgetting in knowledge representation has been shown to be a powerful and useful knowledge engineering tool with widespread application. Yet, very little research has been done on how different policies of forgetting, or use of different forgetting operators, affects the inferential strength of the original theory. The goal of this paper is to define loss functions for measuring changes in inferential strength based on intuitions from model counting and probability theory. Properties of such loss measures are studied and a pragmatic knowledge engineering tool is proposed for computing loss measures using Problog. The paper includes a working methodology for studying and determining the strength of different forgetting policies, in addition to concrete examples showing how to apply the theoretical results using Problog. Although the focus is on forgetting, the results are much more general and should have wider application to other areas.
翻訳日:2024-04-04 18:39:40 公開日:2024-04-03
# PhonologyBench: 大規模言語モデルの音韻論的スキルの評価

PhonologyBench: Evaluating Phonological Skills of Large Language Models ( http://arxiv.org/abs/2404.02456v1 )

ライセンス: Link先を確認
Ashima Suvarna, Harshita Khandelwal, Nanyun Peng, (参考訳) 音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。 LLMは、教育ツールや詩生成といった音韻学を活用する様々な下流アプリケーションで広く使われている。 さらに、LLMはトレーニングデータから、正書法と音韻法の間の不完全関連を学習することができる。 したがって、LLMの音韻論的スキルをベンチマークすることは必須である。 そこで本研究では, 音韻変換, 音節カウント, 韻律生成という, LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。 音声データにアクセスできなかったにもかかわらず、LLMはPhonologyBenchタスクで顕著なパフォーマンスを示した。 しかし,Rhyme Word GenerationとSyllable countingでは,人間に比べて17%,Syllable countingでは45%の差が見られた。 本研究は, 実世界の応用に不注意に影響を及ぼす音韻的タスクにおけるLLM性能の研究の重要性を浮き彫りにした。 さらに,下流アプリケーションと密接な関係にある音韻的タスクにおいて,どのモデルも全てのタスクにおいて他のモデルより常に優れていないことを知るため,研究者はLLMを選択することを推奨する。

Phonology, the study of speech's structure and pronunciation rules, is a critical yet often overlooked component in Large Language Model (LLM) research. LLMs are widely used in various downstream applications that leverage phonology such as educational tools and poetry generation. Moreover, LLMs can potentially learn imperfect associations between orthographic and phonological forms from the training data. Thus, it is imperative to benchmark the phonological skills of LLMs. To this end, we present PhonologyBench, a novel benchmark consisting of three diagnostic tasks designed to explicitly test the phonological skills of LLMs in English: grapheme-to-phoneme conversion, syllable counting, and rhyme word generation. Despite having no access to speech data, LLMs showcased notable performance on the PhonologyBench tasks. However, we observe a significant gap of 17% and 45% on Rhyme Word Generation and Syllable counting, respectively, when compared to humans. Our findings underscore the importance of studying LLM performance on phonological tasks that inadvertently impact real-world applications. Furthermore, we encourage researchers to choose LLMs that perform well on the phonological task that is closely related to the downstream application since we find that no single model consistently outperforms the others on all the tasks.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# RS3Mamba:リモートセンシング画像セマンティックセグメンテーションのためのビジュアルステートスペースモデル

RS3Mamba: Visual State Space Model for Remote Sensing Images Semantic Segmentation ( http://arxiv.org/abs/2404.02457v1 )

ライセンス: Link先を確認
Xianping Ma, Xiaokang Zhang, Man-On Pun, (参考訳) リモートセンシング画像のセマンティックセグメンテーションは、地球科学研究の基本的な課題である。 しかし、広く使われている畳み込みニューラルネットワーク(CNN)とトランスフォーマーには、いくつかの重大な欠点がある。 前者は不十分な長距離モデリング能力によって制限されており、後者は計算複雑性によって妨げられている。 近年,線形計算可能性を伴う長距離関係をモデル化可能な新しい視覚状態空間(VSS)モデルが出現している。 本研究では、この革新的な技術をリモートセンシングタスクに組み込むために、リモートセンシング画像セマンティックセマンティックセマンティフィケーションMamba(RS3Mamba)と呼ばれる新しいデュアルブランチネットワークを提案する。 具体的には、RS3MambaはVSSブロックを使用して補助ブランチを構築し、畳み込みベースのメインブランチに追加のグローバル情報を提供する。 さらに,2つの分岐の異なる特性を考慮し,デュアルエンコーダの機能を拡張・融合するコラボレーティブコンプリートモジュール(CCM)を導入する。 ISPRS VaihingenとLoveDA Urbanという2つの広く使われているデータセットの実験結果は、提案されたRS3Mambaの有効性と可能性を示している。 我々の知る限りでは、これはリモートセンシング画像セマンティックセグメンテーション用に特別に設計されたMambaの最初のビジョンである。 ソースコードはhttps://github.com/sstary/SSRS.comで入手できる。

Semantic segmentation of remote sensing images is a fundamental task in geoscience research. However, there are some significant shortcomings for the widely used convolutional neural networks (CNNs) and Transformers. The former is limited by its insufficient long-range modeling capabilities, while the latter is hampered by its computational complexity. Recently, a novel visual state space (VSS) model represented by Mamba has emerged, capable of modeling long-range relationships with linear computability. In this work, we propose a novel dual-branch network named remote sensing images semantic segmentation Mamba (RS3Mamba) to incorporate this innovative technology into remote sensing tasks. Specifically, RS3Mamba utilizes VSS blocks to construct an auxiliary branch, providing additional global information to convolution-based main branch. Moreover, considering the distinct characteristics of the two branches, we introduce a collaborative completion module (CCM) to enhance and fuse features from the dual-encoder. Experimental results on two widely used datasets, ISPRS Vaihingen and LoveDA Urban, demonstrate the effectiveness and potential of the proposed RS3Mamba. To the best of our knowledge, this is the first vision Mamba specifically designed for remote sensing images semantic segmentation. The source code will be made available at https://github.com/sstary/SSRS.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# 電荷キャリアの量子力学に影響を及ぼす不調和格子環境の粗い記述

A coarse-grained description of anharmonic lattice environments affecting the quantum dynamics of charge carriers ( http://arxiv.org/abs/2404.02459v1 )

ライセンス: Link先を確認
Kuniyuki Miwa, Souichi Sakamoto, Ken Funo, Akihito Ishizaki, (参考訳) 格子の柔らかさは凝縮物質系の電荷キャリアダイナミクスに大きな影響を与え、様々な性質や関数の出現に寄与する。 例えば、キャリア寿命とハイブリッド有機-無機ペロブスカイトの耐障害性がある。 最近の研究は、格子振動のクォート的不調和性の寄与を示唆している。 クォートアンハーモニック性はダブルウェルポテンシャルで議論でき、2つのミニマ間の遷移は2状態のジャンプ確率過程として粗い粒度にすることができる。 このような確率的アプローチは、周囲の2状態遷移によってシステムに導入された動的変動を記述するために一般的に用いられる。 しかし, 物質中の電荷輸送を調べるためには, 電荷輸送に伴うゆらぎだけでなく, 動的格子歪みも記述することが重要である。 したがって、格子歪み力学とともに進行する電荷キャリアダイナミクスを記述する理論が必要である。 本研究では、2つの安定な状態を持つ環境の影響下で量子力学を記述する理論をバイスタブル環境と呼ぶ。 この理論はバイスタブル環境から引き起こされる変動と散逸の影響を合理的に記述し、その効果は広く用いられているガウス環境とは異なる温度依存性を示す。 この温度依存性の物理的意味は、環境力学の観点から説明される。 本研究は, ハイブリッド有機-無機ペロブスカイト系材料における荷電担体ダイナミクスを, 格子軟性および顕著な格子不調和性を有する材料, 例えばハイブリッド有機-無機ペロブスカイトで記述する上での一歩として期待できる。 さらに,これらの知見は,これらの材料の物性や機能を予測するための理解と能力の進歩を表している。

Lattice softness has a significant impact on charge carrier dynamics in condensed matter systems, contributing to the emergence of various properties and functions. Examples include the remarkable carrier lifetimes and defect tolerances of hybrid organic-inorganic perovskites. Recent studies suggest the contribution of quartic anharmonicity of the lattice vibrations. The quartic anharmonicity can be discussed with a double-well potential, and the transition between the two minima can be coarse-grained as a two-state jump stochastic process. Such a stochastic approach is typically employed to describe dynamic fluctuations introduced into a system by two-state transitions in the surroundings. To investigate charge transport in materials, however, it is crucial to describe not only the fluctuations but also the dynamic lattice distortion associated with charge transport. Therefore, there is a need for a theory to describe the charge carrier dynamics proceeding alongside the lattice distortion dynamics. In this study, we present a theory that describes quantum dynamics under the influence of an environment with two stable states, termed a bistable environment. The theory describes the effects of fluctuations and dissipation induced from the bistable environment in a reasonable manner, and the effects exhibit a different temperature dependence than the widely employed Gaussian environment. The physical implication of this temperature dependence is provided in terms of the environmental dynamics. The results of this study are expected to provide a step forward in describing charge carrier dynamics in materials with lattice softness and pronounced lattice anharmonicity, e.g., hybrid organic-inorganic perovskites. Moreover, these findings represent an advancement in our understanding of and capacity to predict and control the physical properties and functions of these materials.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# TSNet:マルチスケール融合と適応学習による画像復調のための2段階ネットワーク

TSNet:A Two-stage Network for Image Dehazing with Multi-scale Fusion and Adaptive Learning ( http://arxiv.org/abs/2404.02460v1 )

ライセンス: Link先を確認
Xiaolin Gong, Zehan Zheng, Heyuan Du, (参考訳) 画像のデハジングは長い間、人気のある研究トピックである。 従来のディープラーニングに基づく画像デハージング手法では、合成データセットと実世界のデータセットの両方に十分なデハージング効果が得られず、一般化が不十分であった。 さらに、単一ステージネットワークは、出力画像のアーティファクトや色歪みを伴う多くの領域を生じることが多い。 そこで本稿では,マルチスケール融合モジュール (MSFM) と適応学習モジュール (ALM) で構成されるTSNetと呼ばれる2段階画像復調ネットワークを提案する。 特に、MSFMとALMはTSNetの一般化を強化する。 MSFMは、複数のスケールで大きな受容場を取得し、異なる周波数で特徴を統合することで、入力と学習目標の違いを減らすことができる。 ALMは画像に対する関心領域を積極的に学習し、テクスチャの詳細をより効率的に復元することができる。 さらに、TSNetは、第1段ネットワークが画像デハージングを行う2段ネットワークとして設計されており、第2段ネットワークは、第1段ネットワークの結果に存在するアーティファクトや色歪みなどの問題を改善するために使用される。 また,学習目標を地上の真実画像から反対の霧マップに変更し,TSNetの学習効率を向上させる。 大規模な実験により、TSNetは従来の最先端の手法と比較して、合成データセットと実世界のデータセットの両方で優れたデハージング性能を示すことが示された。

Image dehazing has been a popular topic of research for a long time. Previous deep learning-based image dehazing methods have failed to achieve satisfactory dehazing effects on both synthetic datasets and real-world datasets, exhibiting poor generalization. Moreover, single-stage networks often result in many regions with artifacts and color distortion in output images. To address these issues, this paper proposes a two-stage image dehazing network called TSNet, mainly consisting of the multi-scale fusion module (MSFM) and the adaptive learning module (ALM). Specifically, MSFM and ALM enhance the generalization of TSNet. The MSFM can obtain large receptive fields at multiple scales and integrate features at different frequencies to reduce the differences between inputs and learning objectives. The ALM can actively learn of regions of interest in images and restore texture details more effectively. Additionally, TSNet is designed as a two-stage network, where the first-stage network performs image dehazing, and the second-stage network is employed to improve issues such as artifacts and color distortion present in the results of the first-stage network. We also change the learning objective from ground truth images to opposite fog maps, which improves the learning efficiency of TSNet. Extensive experiments demonstrate that TSNet exhibits superior dehazing performance on both synthetic and real-world datasets compared to previous state-of-the-art methods.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# IoTセンシングのための振動ベース基礎モデルの効率性とロバスト性について:ケーススタディ

On the Efficiency and Robustness of Vibration-based Foundation Models for IoT Sensing: A Case Study ( http://arxiv.org/abs/2404.02461v1 )

ライセンス: Link先を確認
Tomoyoshi Kimura, Jinyang Li, Tianshi Wang, Denizhan Kara, Yizhuo Chen, Yigong Hu, Ruijie Wang, Maggie Wigness, Shengzhong Liu, Mani Srivastava, Suhas Diggavi, Tarek Abdelzaher, (参考訳) 本稿では,(クラスの)IoTアプリケーションにおける実行時推論の堅牢性を改善するために,未ラベルのセンシングデータで事前学習した振動ベースファンデーションモデル(FM)の可能性を示す。 音響・地震探査を用いた車両分類を応用したケーススタディが提案されている。 この研究は、自然言語処理とコンピュータビジョンの分野での基礎モデルの成功によって動機付けられ、FMの概念を他の領域にも一般化し、自己監督型事前学習に使用できる膨大な量のラベルのないデータが存在している。 そのようなドメインのひとつがIoTアプリケーションです。 IoT領域における選択されたセンシングモダリティのための基礎モデルは、利用可能なラベル付けされていないセンサデータを使用して、環境に依存しない方法で事前トレーニングし、少量のラベル付きデータを使用して、手元のデプロイメントに微調整することができる。 本研究は, 事前学習/微調整手法により, 下流推論の堅牢性が向上し, 異なる環境条件への適応が容易になることを示す。 より具体的には、従来の教師付きディープニューラルネットワーク(DNN)と比較して、FOCALと呼ばれる単純な(振動に基づく)FMライクなモデルを評価するための実世界のケーススタディを示す。 また、教師付き解よりも優れた収束性を示す。 我々の研究結果は、リソース制限IoT設定における(微調整による)推論ロバスト性、実行効率、モデル適応の観点から、振動に基づくFM(およびFMにインスパイアされた全般的な自己教師型モデル)の利点を浮き彫りにした。

This paper demonstrates the potential of vibration-based Foundation Models (FMs), pre-trained with unlabeled sensing data, to improve the robustness of run-time inference in (a class of) IoT applications. A case study is presented featuring a vehicle classification application using acoustic and seismic sensing. The work is motivated by the success of foundation models in the areas of natural language processing and computer vision, leading to generalizations of the FM concept to other domains as well, where significant amounts of unlabeled data exist that can be used for self-supervised pre-training. One such domain is IoT applications. Foundation models for selected sensing modalities in the IoT domain can be pre-trained in an environment-agnostic fashion using available unlabeled sensor data and then fine-tuned to the deployment at hand using a small amount of labeled data. The paper shows that the pre-training/fine-tuning approach improves the robustness of downstream inference and facilitates adaptation to different environmental conditions. More specifically, we present a case study in a real-world setting to evaluate a simple (vibration-based) FM-like model, called FOCAL, demonstrating its superior robustness and adaptation, compared to conventional supervised deep neural networks (DNNs). We also demonstrate its superior convergence over supervised solutions. Our findings highlight the advantages of vibration-based FMs (and FM-inspired selfsupervised models in general) in terms of inference robustness, runtime efficiency, and model adaptation (via fine-tuning) in resource-limited IoT settings.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# 部品認識機能を利用した視覚自己監督型エンコーダの統一メンバーシップ推論法

A Unified Membership Inference Method for Visual Self-supervised Encoder via Part-aware Capability ( http://arxiv.org/abs/2404.02462v1 )

ライセンス: Link先を確認
Jie Zhu, Jirong Zha, Ding Li, Leye Wang, (参考訳) 自己教師付き学習は、広範囲のラベルのないデータを活用することを約束する一方で、特にビジョンにおいて、重要なプライバシー上の懸念にも直面している。 本稿では,視覚的自己指導型モデルに対して,より現実的な方法でメンバシップ推論を行うことを目的としている: 自己指導型トレーニング手法と詳細は,通常,ブラックボックスシステムに直面する場合,敵に対して不明である。 この設定では、自己教師付きモデルは、マスク付き画像モデリングやコントラスト学習など、全く異なる自己教師付きパラダイムで訓練できるので、複雑なトレーニングの詳細とともに、PartCropと呼ばれる統一メンバーシップ推論手法を提案する。 モデル間の共通部分認識能力と、トレーニングデータに対するより強力な部分応答によって動機付けられている。 具体的には、PartCropは画像内のオブジェクトの一部をトリミングして、表現空間内の画像との応答をクエリする。 我々は,3つの広く使用されている画像データセットを用いて,異なるトレーニングプロトコルと構造を持つ自己教師型モデルに対する広範囲な攻撃を行う。 その結果,PartCropの有効性と一般化が検証された。 さらに、PartCropに対抗するために、早期停止と差分プライバシーという2つの一般的なアプローチを評価し、作物の規模を縮小する手法を提案する。 防御実験は、それらすべてが効果的であることを示している。 私たちのコードはhttps://github.com/JiePKU/PartCropで利用可能です。

Self-supervised learning shows promise in harnessing extensive unlabeled data, but it also confronts significant privacy concerns, especially in vision. In this paper, we aim to perform membership inference on visual self-supervised models in a more realistic setting: self-supervised training method and details are unknown for an adversary when attacking as he usually faces a black-box system in practice. In this setting, considering that self-supervised model could be trained by completely different self-supervised paradigms, e.g., masked image modeling and contrastive learning, with complex training details, we propose a unified membership inference method called PartCrop. It is motivated by the shared part-aware capability among models and stronger part response on the training data. Specifically, PartCrop crops parts of objects in an image to query responses with the image in representation space. We conduct extensive attacks on self-supervised models with different training protocols and structures using three widely used image datasets. The results verify the effectiveness and generalization of PartCrop. Moreover, to defend against PartCrop, we evaluate two common approaches, i.e., early stop and differential privacy, and propose a tailored method called shrinking crop scale range. The defense experiments indicate that all of them are effective. Our code is available at https://github.com/JiePKU/PartCrop
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# コード記述のための軌道作成:アルゴリズム推論タスク

Creating a Trajectory for Code Writing: Algorithmic Reasoning Tasks ( http://arxiv.org/abs/2404.02464v1 )

ライセンス: Link先を確認
Shruthi Ravikumar, Margaret Hamilton, Charles Thevathayan, Maria Spichkova, Kashif Ali, Gayan Wijesinghe, (参考訳) 初等プログラミングコースの多くの学生は、最終的な要約評価のタスクを書くのにあまり役に立たない。 このようなタスクは、初心者が与えられた問題領域からコーディングに変換する分析スキルを開発したかどうかを評価するように設計されている。 過去の研究者は、コード説明のような道具を使用して、これらのタスクで到達した認知深度が、コード記述能力とよく相関していることを発見した。 しかし、認知障害の識別に使用する手動マーキングとパーソナライズされたインタビューの必要性は、少数のストラグラーに限られていた。 この作業を大規模グループに拡張するために、手動マーキングを必要としないアルゴリズム推論タスク(ART)と呼ばれる、様々な認知的要求を伴う質問タイプを考案した。 これらのタスクは、学習軌跡を定義することができる推論のレベルを必要とする。 本稿では,これらの機器とその検証に用いる機械学習モデルについて述べる。 我々は,ART型楽器の試行とコードライティングを必要とする学期の最終週に,導入プログラミングコースで収集したデータを使用した。 我々の予備的な研究は、ARTタイプの楽器を特定の機械学習モデルと組み合わせることで、効果的な学習軌跡として機能し、コード書きのスキルを早期に予測できることを示唆している。

Many students in introductory programming courses fare poorly in the code writing tasks of the final summative assessment. Such tasks are designed to assess whether novices have developed the analytical skills to translate from the given problem domain to coding. In the past researchers have used instruments such as code-explain and found that the extent of cognitive depth reached in these tasks correlated well with code writing ability. However, the need for manual marking and personalized interviews used for identifying cognitive difficulties limited the study to a small group of stragglers. To extend this work to larger groups, we have devised several question types with varying cognitive demands collectively called Algorithmic Reasoning Tasks (ARTs), which do not require manual marking. These tasks require levels of reasoning which can define a learning trajectory. This paper describes these instruments and the machine learning models used for validating them. We have used the data collected in an introductory programming course in the penultimate week of the semester which required attempting ART type instruments and code writing. Our preliminary research suggests ART type instruments can be combined with specific machine learning models to act as an effective learning trajectory and early prediction of code-writing skills.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# 数値シーケンスのプロンプト:市場コメント生成の事例研究

Prompting for Numerical Sequences: A Case Study on Market Comment Generation ( http://arxiv.org/abs/2404.02466v1 )

ライセンス: Link先を確認
Masayuki Kawarada, Tatsuya Ishigaki, Hiroya Takamura, (参考訳) 大規模言語モデル(LLM)は、テーブル、グラフ、時系列数値データ-テキスト設定を含む幅広いデータ-テキスト生成タスクに適用されている。 表やグラフなどの構造化データの生成プロンプトの研究が勢いを増している一方で,時系列数値データのプロンプトに関する詳細な調査は欠如している。 そこで本研究では,トークンのシーケンスやHTML,LaTeX,Pythonスタイルなどの構造化フォーマットなど,さまざまな入力表現について検討する。 本実験では, 株価の数値列を入力とし, 対応する市場コメントを生成する市場コメント生成の課題に着目した。 私たちの期待に反して、プログラミング言語に類似したプロンプトはより良い結果をもたらすが、HTMLやLaTeXのような自然言語や長いフォーマットに類似するものは効果が低い。 本研究は,数値列からテキストを生成するタスクに対して,効果的なプロンプトを作成するための洞察を提供する。

Large language models (LLMs) have been applied to a wide range of data-to-text generation tasks, including tables, graphs, and time-series numerical data-to-text settings. While research on generating prompts for structured data such as tables and graphs is gaining momentum, in-depth investigations into prompting for time-series numerical data are lacking. Therefore, this study explores various input representations, including sequences of tokens and structured formats such as HTML, LaTeX, and Python-style codes. In our experiments, we focus on the task of Market Comment Generation, which involves taking a numerical sequence of stock prices as input and generating a corresponding market comment. Contrary to our expectations, the results show that prompts resembling programming languages yield better outcomes, whereas those similar to natural languages and longer formats, such as HTML and LaTeX, are less effective. Our findings offer insights into creating effective prompts for tasks that generate text from numerical sequences.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# プロジェクトベース学習のレンズによるモバイルユーザエクスペリエンス

Mobile user experience from the lens of project-based learning ( http://arxiv.org/abs/2404.02470v1 )

ライセンス: Link先を確認
Maria Spichkova, (参考訳) 本稿では,産業パートナーと共同で,Bachelor と Master プログラムの学習・指導活動の一環として RMIT 大学で実施されているモバイルアプリケーションプロジェクトの概要について述べる。 本研究は,8年間に渡り学習した授業について考察し,学生プロジェクトの結果と,他の大学や国から近づいた最近公表された傾向とを比較した。

This paper presents an overview of mobile application projects conducted at the RMIT University as a part of the Learning and Teaching activities within Bachelor and Master programs, in collaboration with industrial partners. We discuss the lessons learned over eight years of teaching the corresponding courses and compare the results of our student project to the trends summarised in the recently published approached from other universities and countries.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# uTeBC-NLP at SemEval-2024 Task 9: LLMs belateralal Thinkers?

uTeBC-NLP at SemEval-2024 Task 9: Can LLMs be Lateral Thinkers? ( http://arxiv.org/abs/2404.02474v1 )

ライセンス: Link先を確認
Pouya Sadeghi, Amirhossein Abaskohi, Yadollah Yaghoobzadeh, (参考訳) 人間の認知に触発されて、Jiane et al (2023c) は LLM の側方思考を箱の外側で評価するためのベンチマークを作成する。 このベンチマークに基づいて,異なるプロンプト法がLCMの性能を向上し,外部思考能力に固有のパワーを明らかにする方法について検討する。 SemEval-2024, Task 9, Sentence Puzzle sub-taskに参加することで, 思考の連鎖(CoT)と直接的プロンプト, 情報的記述の強化, 検索拡張生成(RAG)パイプラインを用いた文脈的プロンプトの活用など, 迅速なエンジニアリング手法を探求する。 実験では, GPT-3.5, GPT-4, Zephyr-7B-betaの3種類のLDMについて検討した。 我々は,GPT-4を用いて,グライダーとオプションの思考経路のデータセットを作成し,人間による品質評価を行った。 発見は、圧縮された情報伝達プロンプトによって性能が向上することを示している。 動的コンテキスト学習はモデル性能を大幅に向上させる。 さらに、データセット上の微調整Zephyrは、他のコモンセンスデータセットのパフォーマンスを高め、革新的な思考の価値を強調します。

Inspired by human cognition, Jiang et al.(2023c) create a benchmark for assessing LLMs' lateral thinking-thinking outside the box. Building upon this benchmark, we investigate how different prompting methods enhance LLMs' performance on this task to reveal their inherent power for outside-the-box thinking ability. Through participating in SemEval-2024, task 9, Sentence Puzzle sub-task, we explore prompt engineering methods: chain of thoughts (CoT) and direct prompting, enhancing with informative descriptions, and employing contextualizing prompts using a retrieval augmented generation (RAG) pipeline. Our experiments involve three LLMs including GPT-3.5, GPT-4, and Zephyr-7B-beta. We generate a dataset of thinking paths between riddles and options using GPT-4, validated by humans for quality. Findings indicate that compressed informative prompts enhance performance. Dynamic in-context learning enhances model performance significantly. Furthermore, fine-tuning Zephyr on our dataset enhances performance across other commonsense datasets, underscoring the value of innovative thinking.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# 旅行購入問題に対する深層強化学習

Deep Reinforcement Learning for Traveling Purchaser Problems ( http://arxiv.org/abs/2404.02476v1 )

ライセンス: Link先を確認
Haofeng Yuan, Rongping Zhu, Wanlu Yang, Shiji Song, Keyou You, Yuli Zhang, (参考訳) 旅行購入問題(TPP)は、幅広い応用において重要な組合せ最適化問題である。 ルーティングと購入の結合のため、既存のTPPの作業はルート構築と購入計画を同時に扱うことが一般的であり、高い計算コストと厳密な設計を伴うヒューリスティックな手法をもたらすが、性能は限られている。 対照的に、我々はルート構築と購入計画を個別に扱う深層強化学習(DRL)に基づく新しいアプローチを提案し、グローバルな視点からソリューションを評価し、最適化する。 提案手法の主な構成要素は,TPP が市場生産関係を捉えるための二部グラフ表現と,その二部グラフから情報を抽出し,それを用いて経路を逐次構築するポリシネットワークである。 このフレームワークの重要な利点は、ポリシーネットワークを用いて効率的にルートを構築することができ、ルートが決定されると、関連する購入計画は線形プログラミングにより容易に導出でき、DRLを利用することで、ポリシーネットワークをトレーニングして、グローバルなソリューションの目的を最適化することができることである。 さらに、メタラーニング戦略を導入することで、ポリシーネットワークは大規模TPPインスタンス上で安定してトレーニングすることができ、トレーニング中に見たことのないはるかに大きなインスタンスであっても、さまざまなサイズや分布のインスタンスに対して適切に一般化することができる。 様々な合成TPPインスタンスとTPPLIBベンチマークの実験により、DRLベースのアプローチは、確立されたTPPヒューリスティックスを大幅に上回り、最適性ギャップを40%-90%削減し、特に大規模インスタンスにおいて実行時に有利であることを示す。

The traveling purchaser problem (TPP) is an important combinatorial optimization problem with broad applications. Due to the coupling between routing and purchasing, existing works on TPPs commonly address route construction and purchase planning simultaneously, which, however, leads to exact methods with high computational cost and heuristics with sophisticated design but limited performance. In sharp contrast, we propose a novel approach based on deep reinforcement learning (DRL), which addresses route construction and purchase planning separately, while evaluating and optimizing the solution from a global perspective. The key components of our approach include a bipartite graph representation for TPPs to capture the market-product relations, and a policy network that extracts information from the bipartite graph and uses it to sequentially construct the route. One significant benefit of our framework is that we can efficiently construct the route using the policy network, and once the route is determined, the associated purchasing plan can be easily derived through linear programming, while, leveraging DRL, we can train the policy network to optimize the global solution objective. Furthermore, by introducing a meta-learning strategy, the policy network can be trained stably on large-sized TPP instances, and generalize well across instances of varying sizes and distributions, even to much larger instances that are never seen during training. Experiments on various synthetic TPP instances and the TPPLIB benchmark demonstrate that our DRL-based approach can significantly outperform well-established TPP heuristics, reducing the optimality gap by 40%-90%, and also showing an advantage in runtime, especially on large-sized instances.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# 制約付きマルチセルネットワークにおけるSum-Rate性能の向上:低情報交換アプローチ

Enhancing Sum-Rate Performance in Constrained Multicell Networks: A Low-Information Exchange Approach ( http://arxiv.org/abs/2404.02477v1 )

ライセンス: Link先を確認
Youjin Kim, Jonggyu Jang, Hyun Jong Yang, (参考訳) 5G通信等の大規模なMIMOシステムに関する広範な研究にもかかわらず、多くの基地局は大規模なMIMO構成をサポートするのではなく、限られた数のアンテナを備えている。 さらに、細胞の境界をなくすセルレスネットワークの概念が検討されている一方で、実践的な展開はしばしば基地局間のバックホール接続能力が著しく制限されている。 本稿では,より現実的に装備されたマルチセルネットワークの制約内での総和性能を最大化する手法について検討する。 本稿では,数百ビットの交換を必要とする従来の方法とは対照的に,基地局間での情報交換の必要性を劇的に低減する革新的な手法を提案する。 提案手法は,現在のネットワークインフラの制約に対処するだけでなく,これらの制約条件下での大幅な性能向上を示す。

Despite the extensive research on massive MIMO systems for 5G telecommunications and beyond, the reality is that many deployed base stations are equipped with a limited number of antennas rather than supporting massive MIMO configurations. Furthermore, while the cell-less network concept, which eliminates cell boundaries, is under investigation, practical deployments often grapple with significantly limited backhaul connection capacities between base stations. This letter explores techniques to maximize the sum-rate performance within the constraints of these more realistically equipped multicell networks. We propose an innovative approach that dramatically reduces the need for information exchange between base stations to a mere few bits, in stark contrast to conventional methods that require the exchange of hundreds of bits. Our proposed method not only addresses the limitations imposed by current network infrastructure but also showcases significantly improved performance under these constrained conditions.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# FedSelect:ファインチューニングのためのパラメータの選択をカスタマイズした個人化フェデレーション学習

FedSelect: Personalized Federated Learning with Customized Selection of Parameters for Fine-Tuning ( http://arxiv.org/abs/2404.02478v1 )

ライセンス: Link先を確認
Rishub Tamirisa, Chulin Xie, Wenxuan Bao, Andy Zhou, Ron Arel, Aviv Shamsian, (参考訳) 標準フェデレーション学習アプローチは、クライアントデータ分布が十分な不均一性を持つ場合に悩む。 最近の手法では、学習したグローバルな知識をパーソナライズし、クライアントのローカルなデータ分布に合うようにするためのFLアルゴリズムのクラスであるパーソナライズド・フェデレーション・ラーニング(PFL)を通じて、クライアントデータの不均一性の問題に対処している。 既存のPFLメソッドは通常、特定の層(例えば分類器ヘッド)でパーソナライズを行い、ネットワークの残りの部分のグローバルアグリゲーションを実行することによって、ディープニューラルネットワークのグローバル更新を分離する。 しかし、パーソナライズのためのネットワークレイヤの事前選択は、グローバルな知識の最適以下の記憶をもたらす可能性がある。 本稿では,ロッテリ・チェケット仮説の反復的サブネットワーク発見法に着想を得た新しいPFLアルゴリズムであるFedSelectを提案する。 FedSelectはサブネットワークを拡張してクライアントパラメータをパーソナライズし、残りのパラメータに対してグローバルアグリゲーションを同時に実行する。 このアプローチは、トレーニングプロセス中にクライアントパラメータとサブネットワーク構造の両方をパーソナライズすることを可能にする。 最後に、FedSelectはクライアントデータの不均一性設定に挑戦して、最新の最先端のPFLアルゴリズムより優れており、様々な実世界の分散シフトに対する堅牢性を示している。 私たちのコードはhttps://github.com/lapisrocks/fedselect.comから入手可能です。

Standard federated learning approaches suffer when client data distributions have sufficient heterogeneity. Recent methods addressed the client data heterogeneity issue via personalized federated learning (PFL) - a class of FL algorithms aiming to personalize learned global knowledge to better suit the clients' local data distributions. Existing PFL methods usually decouple global updates in deep neural networks by performing personalization on particular layers (i.e. classifier heads) and global aggregation for the rest of the network. However, preselecting network layers for personalization may result in suboptimal storage of global knowledge. In this work, we propose FedSelect, a novel PFL algorithm inspired by the iterative subnetwork discovery procedure used for the Lottery Ticket Hypothesis. FedSelect incrementally expands subnetworks to personalize client parameters, concurrently conducting global aggregations on the remaining parameters. This approach enables the personalization of both client parameters and subnetwork structure during the training process. Finally, we show that FedSelect outperforms recent state-of-the-art PFL algorithms under challenging client data heterogeneity settings and demonstrates robustness to various real-world distributional shifts. Our code is available at https://github.com/lapisrocks/fedselect.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# 薬物のシナジー予測の新しい方法

New methods for drug synergy prediction ( http://arxiv.org/abs/2404.02484v1 )

ライセンス: Link先を確認
Fatemeh Abbasi, Juho Rousu, (参考訳) このミニレビューでは、高スループットの組合せスクリーンに依存する薬物組合せの新たな予測手法について検討する。 この分野の急速な進歩は、2021年以降に発行された30以上のオリジナルの機械学習手法で観察されている。 本研究の目的は、これらの論文が扱うコア技術、データソース、入力データタイプ、シナジースコア、および論文が扱う予測シナリオと評価プロトコルを強調することにより、統一されたレンズの下にこれらの論文を配置することである。 我々の発見は、既知の薬物や細胞株を含む相乗的予測シナリオを正確に解決する最良の方法である一方、新しい薬物や細胞株を含むシナリオは、依然として正確な予測レベルには達していない。

In this mini-review, we explore the new prediction methods for drug combination synergy relying on high-throughput combinatorial screens. The fast progress of the field is witnessed in the more than thirty original machine learning methods published since 2021, a clear majority of them based on deep learning techniques. We aim to put these papers under a unifying lens by highlighting the core technologies, the data sources, the input data types and synergy scores used in the methods, as well as the prediction scenarios and evaluation protocols that the papers deal with. Our finding is that the best methods accurately solve the synergy prediction scenarios involving known drugs or cell lines while the scenarios involving new drugs or cell lines still fall short of an accurate prediction level.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# DUQGen:合成クエリ生成の多様化によるニューラルネットワークランカの効果的な教師なしドメイン適応

DUQGen: Effective Unsupervised Domain Adaptation of Neural Rankers by Diversifying Synthetic Query Generation ( http://arxiv.org/abs/2404.02489v1 )

ライセンス: Link先を確認
Ramraj Chandradevan, Kaustubh D. Dhole, Eugene Agichtein, (参考訳) MS-MARCOのような大規模タスク固有のトレーニングデータで事前訓練された最先端のニューラルローダーは、ドメイン適応なしで様々なランク付けタスクに強いパフォーマンスを示すことが示されている(ゼロショットとも呼ばれる)。 しかし、ゼロショットニューラルネットワークのランク付けは、対象のドメイン情報を活用できないため、準最適である可能性がある。 残念なことに、現代のニューラルランサーを改善するために十分な大容量で高品質な目標トレーニングデータを取得することは、コストと時間を要する可能性がある。 この問題に対処するために,従来の文献における重要なギャップ,すなわち,新しいドメインのための最新のニューラルネットワークローダを微調整するために,効果的かつ多様な合成トレーニングデータの両方を自動的に生成する方法に対処する,教師なしドメイン適応のための新しいアプローチであるDUQGenを提案する。 具体的には、DUQGenは、類似したドキュメントのクラスタを識別することで、ターゲットドメインをより効果的に表現し、結果のドキュメントクラスタを確率的サンプリングすることで、より多様なトレーニングデータセットを生成する。 標準的なBEIRコレクションよりも広範な実験では、DUQGenはゼロショットベースラインを一貫して上回り、18データセット中16データセットでSOTAベースラインを大幅に上回り、すべてのデータセットで平均4%の相対的な改善が達成されている。 本研究は,提案手法の性能をより深く理解し,さらなる改善を期待できる領域を特定するための詳細な分析により,その結果を補完するものである。

State-of-the-art neural rankers pre-trained on large task-specific training data such as MS-MARCO, have been shown to exhibit strong performance on various ranking tasks without domain adaptation, also called zero-shot. However, zero-shot neural ranking may be sub-optimal, as it does not take advantage of the target domain information. Unfortunately, acquiring sufficiently large and high quality target training data to improve a modern neural ranker can be costly and time-consuming. To address this problem, we propose a new approach to unsupervised domain adaptation for ranking, DUQGen, which addresses a critical gap in prior literature, namely how to automatically generate both effective and diverse synthetic training data to fine tune a modern neural ranker for a new domain. Specifically, DUQGen produces a more effective representation of the target domain by identifying clusters of similar documents; and generates a more diverse training dataset by probabilistic sampling over the resulting document clusters. Our extensive experiments, over the standard BEIR collection, demonstrate that DUQGen consistently outperforms all zero-shot baselines and substantially outperforms the SOTA baselines on 16 out of 18 datasets, for an average of 4% relative improvement across all datasets. We complement our results with a thorough analysis for more in-depth understanding of the proposed method's performance and to identify promising areas for further improvements.
翻訳日:2024-04-04 18:29:43 公開日:2024-04-03
# 単語アライメントによる低リソース言語に対する言語間文埋め込みの強化

Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment ( http://arxiv.org/abs/2404.02490v1 )

ライセンス: Link先を確認
Zhongtao Miao, Qiyu Wu, Kaiyan Zhao, Zilong Wu, Yoshimasa Tsuruoka, (参考訳) 言語間文埋め込みの分野は近年顕著な進歩を遂げているが, 並列コーパスの不足により, 低リソース言語に関する研究が遅れている。 本稿は、低リソース言語における言語間単語表現が、現在のモデルにおける高リソース言語における単語表現と相容れないことを示す。 そこで本研究では,既製の単語アライメントモデルを用いて,英語と8つの低リソース言語の間で単語を明示的にアライメントする新しいフレームワークを提案する。 このフレームワークには、単語予測と単語翻訳ランキングの3つの主要なトレーニング目標と、広く使用されている翻訳ランキングが含まれている。 我々は、低リソース言語における文の埋め込みを大幅に改善するbitext検索タスクの実験を通して、我々のアプローチを評価する。 さらに,高性能言語における幅広いタスクにまたがる提案モデルの競争性能は,その実用性を示している。

The field of cross-lingual sentence embeddings has recently experienced significant advancements, but research concerning low-resource languages has lagged due to the scarcity of parallel corpora. This paper shows that cross-lingual word representation in low-resource languages is notably under-aligned with that in high-resource languages in current models. To address this, we introduce a novel framework that explicitly aligns words between English and eight low-resource languages, utilizing off-the-shelf word alignment models. This framework incorporates three primary training objectives: aligned word prediction and word translation ranking, along with the widely used translation ranking. We evaluate our approach through experiments on the bitext retrieval task, which demonstrate substantial improvements on sentence embeddings in low-resource languages. In addition, the competitive performance of the proposed model across a broader range of tasks in high-resource languages underscores its practicality.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# 大規模言語モデルの社会的ノルムの測定

Measuring Social Norms of Large Language Models ( http://arxiv.org/abs/2404.02491v1 )

ライセンス: Link先を確認
Ye Yuan, Kexin Tang, Jianhao Shen, Ming Zhang, Chenguang Wang, (参考訳) 本稿では,大規模言語モデルが社会規範を理解するかどうかを検証するための新たな課題を提案する。 既存のデータセットとは対照的に、私たちのデータセットは解決すべき社会的規範を根本的に理解する必要があります。 我々のデータセットは、402のスキルと12,383の質問からなり、意見や議論から文化や法律まで幅広い社会的規範をカバーしている。 K-12のカリキュラムに従ってデータセットを設計する。 これにより、大きな言語モデルの社会的理解を直接人間、具体的には小学生と直接比較することができる。 GPT3.5-Turbo や LLaMA2-Chat といった最近の大規模言語モデルでは,従来のベンチマークではほとんどランダムな精度が得られなかった。 次に,大規模言語モデルに基づくマルチエージェントフレームワークを提案する。 この方法は、人間に匹敵する大きな言語モデルをさらに改善する。 現実世界のアプリケーションにおける大規模言語モデルの採用が増加していることを考えると、我々の発見は特に重要であり、将来の改善に向けたユニークな方向性を示している。

We present a new challenge to examine whether large language models understand social norms. In contrast to existing datasets, our dataset requires a fundamental understanding of social norms to solve. Our dataset features the largest set of social norm skills, consisting of 402 skills and 12,383 questions covering a wide set of social norms ranging from opinions and arguments to culture and laws. We design our dataset according to the K-12 curriculum. This enables the direct comparison of the social understanding of large language models to humans, more specifically, elementary students. While prior work generates nearly random accuracy on our benchmark, recent large language models such as GPT3.5-Turbo and LLaMA2-Chat are able to improve the performance significantly, only slightly below human performance. We then propose a multi-agent framework based on large language models to improve the models' ability to understand social norms. This method further improves large language models to be on par with humans. Given the increasing adoption of large language models in real-world applications, our finding is particularly important and presents a unique direction for future improvements.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# 完全に観測可能な非決定論的計画領域に対する一般政策の学習

Learning Generalized Policies for Fully Observable Non-Deterministic Planning Domains ( http://arxiv.org/abs/2404.02499v1 )

ライセンス: Link先を確認
Till Hofmann, Hector Geffner, (参考訳) 一般的なポリシーは、あるドメインからの解決可能なインスタンスの無限のコレクションのような、計画問題の大規模なファミリーを解決するためのリアクティブ戦略を表す。 このような方針を学習する手法は、古典的なドメインでうまく開発されている。 本研究では、完全可観測非決定論的(FOND)領域上での一般政策学習のための定式化と結果の組合せ法を拡張する。 また、FOND計画における多くのベンチマークドメインに対して結果のアプローチを実験的に評価し、これらのドメインのいくつかに結果をもたらす一般的なポリシーを示し、それらの正しさを証明した。 FOND計画のための一般的なポリシーを学習する方法は、与えられた状態空間ではなく、同時に学習しなければならない特徴によって定義された抽象空間において、解を探索する代替FOND計画法として実際に見ることができる。

General policies represent reactive strategies for solving large families of planning problems like the infinite collection of solvable instances from a given domain. Methods for learning such policies from a collection of small training instances have been developed successfully for classical domains. In this work, we extend the formulations and the resulting combinatorial methods for learning general policies over fully observable, non-deterministic (FOND) domains. We also evaluate the resulting approach experimentally over a number of benchmark domains in FOND planning, present the general policies that result in some of these domains, and prove their correctness. The method for learning general policies for FOND planning can actually be seen as an alternative FOND planning method that searches for solutions, not in the given state space but in an abstract space defined by features that must be learned as well.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# 感情支援会話における動的説明検索と認知的理解

Dynamic Demonstration Retrieval and Cognitive Understanding for Emotional Support Conversation ( http://arxiv.org/abs/2404.02505v1 )

ライセンス: Link先を確認
Zhe Xu, Daoyuan Chen, Jiayi Kuang, Zihao Yi, Yaliang Li, Ying Shen, (参考訳) 感情支援会話(Emotional Support Conversation、ESC)システムは、感情的な相互作用を提供し、ユーザが独自の経験を理解し、対処することによって、ネガティブな感情状態を通じて支援する。 本稿では、動的実演検索による文脈的関連性および共感的応答生成の促進と、暗黙の精神状態を包括的に把握する認知的理解の促進という、ESCにおける2つの重要な課題に取り組む。 本稿では、これらの要素を相乗化してESCが提供するサポートの質を向上させる新しいアプローチである、動的実証検索と認知アスペクト理解(\urwork)を紹介する。 テキスト内学習とペルソナ情報を活用することで,情報とパーソナライズされたデモペアを選択する革新的な検索機構を導入する。 また,ATOMIC知識源からの4つの認知的関係を利用して,支援者の精神状態に対する状況認識を深める認知理解モジュールを提案する。 我々の支援型デコーダは多様な知識源からの情報を統合し、共感的かつ認知的に認識される応答生成の基盤となる。 ウールワークの有効性は、広範囲な自動評価と人的評価によって実証され、多くの最先端モデルよりも大幅に改善され、10つのメトリクス全体のパフォーマンスが最大13.79\%向上した。 私たちのコードは、さらなる研究と開発を促進するために、パブリックアクセスが可能です。

Emotional Support Conversation (ESC) systems are pivotal in providing empathetic interactions, aiding users through negative emotional states by understanding and addressing their unique experiences. In this paper, we tackle two key challenges in ESC: enhancing contextually relevant and empathetic response generation through dynamic demonstration retrieval, and advancing cognitive understanding to grasp implicit mental states comprehensively. We introduce Dynamic Demonstration Retrieval and Cognitive-Aspect Situation Understanding (\ourwork), a novel approach that synergizes these elements to improve the quality of support provided in ESCs. By leveraging in-context learning and persona information, we introduce an innovative retrieval mechanism that selects informative and personalized demonstration pairs. We also propose a cognitive understanding module that utilizes four cognitive relationships from the ATOMIC knowledge source to deepen situational awareness of help-seekers' mental states. Our supportive decoder integrates information from diverse knowledge sources, underpinning response generation that is both empathetic and cognitively aware. The effectiveness of \ourwork is demonstrated through extensive automatic and human evaluations, revealing substantial improvements over numerous state-of-the-art models, with up to 13.79\% enhancement in overall performance of ten metrics. Our codes are available for public access to facilitate further research and development.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# 空間分離と圧縮を組み込んだ寿命イベント検出

Lifelong Event Detection with Embedding Space Separation and Compaction ( http://arxiv.org/abs/2404.02507v1 )

ライセンス: Link先を確認
Chengwei Qin, Ruirui Chen, Ruochen Zhao, Wenhan Xia, Shafiq Joty, (参考訳) 忘れを緩和するために、既存の寿命イベント検出方法は、通常、メモリモジュールを保持し、新しいタスクの学習中に記憶されたメモリデータを再生する。 しかし、メモリデータと新しいタスクサンプルの単純な組み合わせは、新しいデータの特徴分布と以前に学習した埋め込み空間とが重複している可能性があるため、以前取得した知識をかなり忘れてしまう可能性がある。 さらに、モデルは学習パターンを効果的に記憶するのではなく、少数のメモリサンプルに過度に適合する。 本稿では,空間分離とコンパクト化に基づく新しい手法を提案する。 本手法は,従来の埋め込み空間から新たなデータの特徴分布を強制することで,以前学習したタスクの忘れを緩和する。 また、メモリキャリブレーション機構によるオーバーフィッティングを軽減し、メモリデータをプロトタイプに近いものにし、クラス内のコンパクト性を高める。 さらに、学習済みのタスクから取得した知識を描画することで、新しいタスクの学習可能なパラメータを初期化し、フォワード・ナレッジ・トランスファーを容易にする。 大規模な実験により,本手法は従来の最先端手法よりも大幅に優れることを示した。

To mitigate forgetting, existing lifelong event detection methods typically maintain a memory module and replay the stored memory data during the learning of a new task. However, the simple combination of memory data and new-task samples can still result in substantial forgetting of previously acquired knowledge, which may occur due to the potential overlap between the feature distribution of new data and the previously learned embedding space. Moreover, the model suffers from overfitting on the few memory samples rather than effectively remembering learned patterns. To address the challenges of forgetting and overfitting, we propose a novel method based on embedding space separation and compaction. Our method alleviates forgetting of previously learned tasks by forcing the feature distribution of new data away from the previous embedding space. It also mitigates overfitting by a memory calibration mechanism that encourages memory data to be close to its prototype to enhance intra-class compactness. In addition, the learnable parameters of the new task are initialized by drawing upon acquired knowledge from the previously learned task to facilitate forward knowledge transfer. With extensive experiments, we demonstrate that our method can significantly outperform previous state-of-the-art approaches.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# VIAssist: 視覚障害のあるユーザにマルチモーダルな大規模言語モデルを適用する

VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments ( http://arxiv.org/abs/2404.02508v1 )

ライセンス: Link先を確認
Bufang Yang, Lixing He, Kaiwei Liu, Zhenyu Yan, (参考訳) 視覚障害のある人は視覚障害者(VI)と呼ばれる。 全世界で220億人が視覚障害に罹患している。 MLLM(Multi-modal large language model)の最近の進歩は、様々な領域にまたがる異常な能力を示した。 MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。 しかし、毎日の要求を満たすために望ましい画像を取得するのが困難であるため、VI人がMLLMを使うのは困難である。 例えば、対象のオブジェクトは画像に完全にあるいは部分的に置かれていない。 本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。 VIAssistは望ましくない画像を識別し、詳細なアクションを提供する。 最後に、VIAssistは画像に基づいてユーザーのクエリに信頼できる回答を提供することができる。 以上の結果から, VIAssist はベースラインよりも BERTScore と ROUGE のスコアが高い+0.21 と +0.31 を提供することがわかった。

Individuals with visual impairments, encompassing both partial and total difficulties in visual perception, are referred to as visually impaired (VI) people. An estimated 2.2 billion individuals worldwide are affected by visual impairments. Recent advancements in multi-modal large language models (MLLMs) have showcased their extraordinary capabilities across various domains. It is desirable to help VI individuals with MLLMs' great capabilities of visual understanding and reasoning. However, it is challenging for VI people to use MLLMs due to the difficulties in capturing the desirable images to fulfill their daily requests. For example, the target object is not fully or partially placed in the image. This paper explores how to leverage MLLMs for VI individuals to provide visual-question answers. VIAssist can identify undesired images and provide detailed actions. Finally, VIAssist can provide reliable answers to users' queries based on the images. Our results show that VIAssist provides +0.21 and +0.31 higher BERTScore and ROUGE scores than the baseline, respectively.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# 量子プロセッサを用いた強相関材料の解析

Utilizing Quantum Processor for the Analysis of Strongly Correlated Materials ( http://arxiv.org/abs/2404.02509v1 )

ライセンス: Link先を確認
Hengyue Li, Yusheng Yang, Pin Lv, Jinglong Qu, Zhe-Hui Wang, Jian Sun, Shenggang Ying, (参考訳) 本研究では,従来の量子クラスター法を量子回路モデルに適用することにより,強い相関関係を解析するための体系的アプローチを提案する。 我々は、クラスタのグリーン関数を計算するためのより簡潔な公式を開発し、複雑な演算ではなく、量子回路上の実数計算のみを必要とする。 このアプローチは本質的に、主に統計確率をもたらす量子回路に適している。 実例として,2次元格子上のハバードモデルについて検討した。 基底状態は、QuantumCTek社から供給された66量子ビットの超伝導量子プロセッサであるXiaohongを用いて決定される。 その後、回路モデルを用いてクラスタのリアルタイムリタードグリーン関数を計算し、格子グリーン関数を決定する。 格子系の絶縁体相におけるバンド構造について検討した。 この予備的な調査は、凝縮物質物理学の分野における革新的な物理学の富を探求するための基礎となる。

This study introduces a systematic approach for analyzing strongly correlated systems by adapting the conventional quantum cluster method to a quantum circuit model. We have developed a more concise formula for calculating the cluster's Green's function, requiring only real-number computations on the quantum circuit instead of complex ones. This approach is inherently more suited to quantum circuits, which primarily yield statistical probabilities. As an illustrative example, we explored the Hubbard model on a 2D lattice. The ground state is determined utilizing Xiaohong, a superconducting quantum processor equipped with 66 qubits, supplied by QuantumCTek Co., Ltd. Subsequently, we employed the circuit model to compute the real-time retarded Green's function for the cluster, which is then used to determine the lattice Green's function. We conducted an examination of the band structure in the insulator phase of the lattice system. This preliminary investigation lays the groundwork for exploring a wealth of innovative physics within the field of condensed matter physics.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# フェデレーション学習のための解釈可能なクライアント決定木集約プロセス

An Interpretable Client Decision Tree Aggregation process for Federated Learning ( http://arxiv.org/abs/2404.02510v1 )

ライセンス: Link先を確認
Alberto Argente-Garrido, Cristina Zuheros, M. Victoria Luzón, Francisco Herrera, (参考訳) 信頼できる人工知能ソリューションは、堅牢性、安全性、透明性、説明可能性、プライバシなどの原則を優先する、今日のデータ駆動アプリケーションにおいて不可欠である。 これにより、プライバシと分散機械学習のソリューションとしてフェデレートラーニングが出現した。 自己説明型モデルとして決定木は、これらのモデルに解釈可能性を注入するフェデレーション学習環境のようなリソース制約のある環境において、複数のデバイスをまたいだ協調的なモデルトレーニングに最適である。 決定木構造は、連合学習環境における集約を容易にするものではない。 集約された決定木を堅牢かつ一般化可能に保ちながら、バイアスや過度に適合することなく、意思決定パスをマージできる技術が必要です。 本稿では,フェデレート学習シナリオに対する解釈可能なクライアント決定木集約プロセスを提案する。 このモデルは、決定ツリーの複数の決定パスの集約に基づいており、ID3やCARTなど、さまざまな決定ツリータイプで使用することができる。 4つのデータセットで実験を行い、分析により、モデルで構築された木が局所モデルを改善し、最先端のモデルより優れていることが示された。

Trustworthy Artificial Intelligence solutions are essential in today's data-driven applications, prioritizing principles such as robustness, safety, transparency, explainability, and privacy among others. This has led to the emergence of Federated Learning as a solution for privacy and distributed machine learning. While decision trees, as self-explanatory models, are ideal for collaborative model training across multiple devices in resource-constrained environments such as federated learning environments for injecting interpretability in these models. Decision tree structure makes the aggregation in a federated learning environment not trivial. They require techniques that can merge their decision paths without introducing bias or overfitting while keeping the aggregated decision trees robust and generalizable. In this paper, we propose an Interpretable Client Decision Tree Aggregation process for Federated Learning scenarios that keeps the interpretability and the precision of the base decision trees used for the aggregation. This model is based on aggregating multiple decision paths of the decision trees and can be used on different decision tree types, such as ID3 and CART. We carry out the experiments within four datasets, and the analysis shows that the tree built with the model improves the local models, and outperforms the state-of-the-art.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# 低データオラクルを用いた機械学習のための確率的制約付き分散最適化:グラディエントスライディングアプローチ

Stochastic Constrained Decentralized Optimization for Machine Learning with Fewer Data Oracles: a Gradient Sliding Approach ( http://arxiv.org/abs/2404.02511v1 )

ライセンス: Link先を確認
Hoang Huy Nguyen, Yan Li, Tuo Zhao, (参考訳) 現代の分散アプリケーションでは、通信効率とユーザのプライバシを確保することが重要な課題です。 機械学習モデルを訓練するために、アルゴリズムは、その勾配計算のためにデータセンターとサンプルデータに通信し、データを公開するとともに通信コストを増大させる必要がある。 これにより、通信効率が良く、勾配計算の数を最小限に抑える分散最適化アルゴリズムの必要性が生じる。 この目的のために、通信効率が良く、最適勾配複雑性が$O(1/\sqrt{\varepsilon}+\sigma^2/{\varepsilon^2})$と$O(\log(1/\varepsilon)+\sigma^2/\varepsilon)$と$O(\log(1/\varepsilon)+\sigma^2/\varepsilon)$の両設定に対して、それぞれ凸および強凸設定に対して$O(1/\varepsilon^2)のLO(Linear Optimization)複雑さが与えられる。 従来の『cite{wai-fw-2017}』と比較して、我々のフレームワークは、最適解が実現可能な集合の厳密な内部点であるという仮定を緩和し、確率的勾配オラクルを用いた大規模トレーニングに広く適用可能である。 また,様々な数値実験により,アルゴリズムの効率性を示す。

In modern decentralized applications, ensuring communication efficiency and privacy for the users are the key challenges. In order to train machine-learning models, the algorithm has to communicate to the data center and sample data for its gradient computation, thus exposing the data and increasing the communication cost. This gives rise to the need for a decentralized optimization algorithm that is communication-efficient and minimizes the number of gradient computations. To this end, we propose the primal-dual sliding with conditional gradient sliding framework, which is communication-efficient and achieves an $\varepsilon$-approximate solution with the optimal gradient complexity of $O(1/\sqrt{\varepsilon}+\sigma^2/{\varepsilon^2})$ and $O(\log(1/\varepsilon)+\sigma^2/\varepsilon)$ for the convex and strongly convex setting respectively and an LO (Linear Optimization) complexity of $O(1/\varepsilon^2)$ for both settings given a stochastic gradient oracle with variance $\sigma^2$. Compared with the prior work \cite{wai-fw-2017}, our framework relaxes the assumption of the optimal solution being a strict interior point of the feasible set and enjoys wider applicability for large-scale training using a stochastic gradient oracle. We also demonstrate the efficiency of our algorithms with various numerical experiments.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# 大規模言語モデルによる英語とインド語の参照なし翻訳評価に向けて

Towards Large Language Model driven Reference-less Translation Evaluation for English and Indian Languages ( http://arxiv.org/abs/2404.02512v1 )

ライセンス: Link先を確認
Vandan Mujadia, Pruthwik Mishra, Arafat Ahsan, Dipti Misra Sharma, (参考訳) 本研究は,大規模な言語モデルによる自動参照レス翻訳評価の有効性評価に主眼を置いて,人間の直接的評価を模倣し,英語とインドの翻訳の質を評価する実験を行った。 我々は,ゼロショット学習,インコンテキストのサンプル駆動学習,大規模言語モデルの微調整を行う翻訳評価タスクを構築し,100点中100点が完全翻訳であり,1点が不十分翻訳であることを示す。 トレーニングシステムの性能をCOMET,BERT-Scorer,LABSEなどの既存手法と比較したところ,LLMに基づく評価器 (LLaMA-2-13B) は,インド語対に対する人間の判断と同等あるいはそれ以上の相関性が得られることがわかった。

With the primary focus on evaluating the effectiveness of large language models for automatic reference-less translation assessment, this work presents our experiments on mimicking human direct assessment to evaluate the quality of translations in English and Indian languages. We constructed a translation evaluation task where we performed zero-shot learning, in-context example-driven learning, and fine-tuning of large language models to provide a score out of 100, where 100 represents a perfect translation and 1 represents a poor translation. We compared the performance of our trained systems with existing methods such as COMET, BERT-Scorer, and LABSE, and found that the LLM-based evaluator (LLaMA-2-13B) achieves a comparable or higher overall correlation with human judgments for the considered Indian language pairs.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# Freditor:高周波分解による高忠実かつ転写可能なNeRF編集

Freditor: High-Fidelity and Transferable NeRF Editing by Frequency Decomposition ( http://arxiv.org/abs/2404.02514v1 )

ライセンス: Link先を確認
Yisheng He, Weihao Yuan, Siyu Zhu, Zilong Dong, Liefeng Bo, Qixing Huang, (参考訳) 本稿では,高周波分解による高忠実かつ転写可能なNeRF編集を実現する。 最近のNeRF編集パイプラインは、ぼやけた結果に悩まされながら、3Dシーンに2Dのスタイリング結果を持ち上げ、また2D編集の不整合による詳細な構造を捉えることができない。 我々の重要な洞察は、画像の低周波成分は、高周波成分と比較して編集後より多視点一貫性が高いということである。 さらに、出現様式は、主に低周波成分に示され、内容の詳細は特に高周波部分に存在する。 これは、低周波成分の編集を行う動機となり、その結果、高忠実度な編集シーンが生まれる。 さらに、低周波特徴空間で編集を行い、安定した強度制御と新規なシーン転送を可能にする。 フォトリアリスティックデータセット上で行われた総合的な実験は、高忠実度かつ転写可能なNeRF編集の優れた性能を示す。 プロジェクトページは \url{https://aigc3d.github.io/freditor} にある。

This paper enables high-fidelity, transferable NeRF editing by frequency decomposition. Recent NeRF editing pipelines lift 2D stylization results to 3D scenes while suffering from blurry results, and fail to capture detailed structures caused by the inconsistency between 2D editings. Our critical insight is that low-frequency components of images are more multiview-consistent after editing compared with their high-frequency parts. Moreover, the appearance style is mainly exhibited on the low-frequency components, and the content details especially reside in high-frequency parts. This motivates us to perform editing on low-frequency components, which results in high-fidelity edited scenes. In addition, the editing is performed in the low-frequency feature space, enabling stable intensity control and novel scene transfer. Comprehensive experiments conducted on photorealistic datasets demonstrate the superior performance of high-fidelity and transferable NeRF editing. The project page is at \url{https://aigc3d.github.io/freditor}.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# スキッドステアリングロボットの運動モデルのオンライン校正による高結合LiDAR-IMU-Wheelオドメトリー

Tightly-Coupled LiDAR-IMU-Wheel Odometry with Online Calibration of a Kinematic Model for Skid-Steering Robots ( http://arxiv.org/abs/2404.02515v1 )

ライセンス: Link先を確認
Taku Okawara, Kenji Koide, Shuji Oishi, Masashi Yokozuka, Atsuhiko Banno, Kentaro Uno, Kazuya Yoshida, (参考訳) トンネルと長い廊下は、これらの環境でLiDARポイントクラウドが縮退するので、移動ロボットにとって困難な環境である。 そこで本研究では,スイドステアリングロボットのオンラインキャリブレーションを用いたLiDAR-IMU-wheel odometryアルゴリズムを提案する。 運動制約として機能するだけでなく,スキッドステアリングロボットのキネマティックモデルのオンラインキャリブレーションも行う。 動的に変化する運動モデル(例えばタイヤ圧力による車輪半径の変化)と地形条件にもかかわらず,本手法はオンラインキャリブレーションによるモデル誤差に対処できる。 さらに,LiDAR-IMU融合が十分に作動している間のキャリブレーションにより,長い廊下や直線廊下などの劣化環境の正確な位置決めが可能となった。 さらに、合理的な制約を作成するために、車輪のオドメトリーの不確実性(すなわち共分散行列)をオンラインで推定する。 提案手法は3つの実験により検証した。 最初の室内実験では、本手法は重度縮退例(長い回廊)において頑健であり、車輪半径の変化が認められた。 第2回屋外実験では, 車輪形状のオンライン不確実性評価により, 屋外の荒地において, センサの軌跡を正確に推定できることが実証された。 第3の実験では、提案したオンラインキャリブレーションにより、地形変化におけるロバストなオドメトリー推定が可能となった。

Tunnels and long corridors are challenging environments for mobile robots because a LiDAR point cloud should degenerate in these environments. To tackle point cloud degeneration, this study presents a tightly-coupled LiDAR-IMU-wheel odometry algorithm with an online calibration for skid-steering robots. We propose a full linear wheel odometry factor, which not only serves as a motion constraint but also performs the online calibration of kinematic models for skid-steering robots. Despite the dynamically changing kinematic model (e.g., wheel radii changes caused by tire pressures) and terrain conditions, our method can address the model error via online calibration. Moreover, our method enables an accurate localization in cases of degenerated environments, such as long and straight corridors, by calibration while the LiDAR-IMU fusion sufficiently operates. Furthermore, we estimate the uncertainty (i.e., covariance matrix) of the wheel odometry online for creating a reasonable constraint. The proposed method is validated through three experiments. The first indoor experiment shows that the proposed method is robust in severe degeneracy cases (long corridors) and changes in the wheel radii. The second outdoor experiment demonstrates that our method accurately estimates the sensor trajectory despite being in rough outdoor terrain owing to online uncertainty estimation of wheel odometry. The third experiment shows the proposed online calibration enables robust odometry estimation in changing terrains.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# HENet:マルチビューカメラによるエンドツーエンドマルチタスク3次元認識のためのハイブリッド符号化

HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras ( http://arxiv.org/abs/2404.02517v1 )

ライセンス: Link先を確認
Zhongyu Xia, ZhiWei Lin, Xinhao Wang, Yongtao Wang, Yun Xing, Shengxiang Qi, Nan Dong, Ming-Hsuan Yang, (参考訳) 多視点カメラからの3次元認識は、自律運転システムにおいて重要な要素であり、3Dオブジェクトの検出や鳥の目視(BEV)セマンティックセグメンテーションといった複数のタスクを含む。 近年の3次元知覚モデルでは,大きな画像エンコーダ,高解像度画像,長期時間入力が採用されており,性能が著しく向上している。 しかし、これらの手法は、計算資源の制約のため、トレーニングや推論のシナリオでは互換性がないことが多い。 さらに、現代の自律運転システムは、システムアーキテクチャ全体を単純化し、実装の複雑さを低減することができるマルチタスク3D知覚のためのエンドツーエンドフレームワークを採用することを好んでいる。 しかし、複数のタスクをエンドツーエンドの3D知覚モデル内で協調的に最適化する場合、タスク間の衝突が発生することが多い。 本稿では,これらの問題を緩和するために,マルチタスク3次元認識のためのHENetというエンドツーエンドフレームワークを提案する。 具体的には,短期フレーム用大画像エンコーダと長期フレーム用小画像エンコーダを用いたハイブリッド画像エンコーダを提案する。 次に,2つのハイブリット画像エンコーダから抽出した異なるフレームの特徴を融合する,アテンション機構に基づく時間的特徴統合モジュールを提案する。 最後に、各知覚タスクの特徴に基づき、異なるグリッドサイズのBEV機能、独立したBEVエンコーダ、タスクデコーダを異なるタスクに活用する。 実験の結果,HENetは3Dオブジェクト検出やBEVセマンティックセマンティックセグメンテーションを含む,最先端のマルチタスク3D知覚結果をnuScenesベンチマークで達成した。 ソースコードとモデルはhttps://github.com/VDIGPKU/HENet.comで公開される。

Three-dimensional perception from multi-view cameras is a crucial component in autonomous driving systems, which involves multiple tasks like 3D object detection and bird's-eye-view (BEV) semantic segmentation. To improve perception precision, large image encoders, high-resolution images, and long-term temporal inputs have been adopted in recent 3D perception models, bringing remarkable performance gains. However, these techniques are often incompatible in training and inference scenarios due to computational resource constraints. Besides, modern autonomous driving systems prefer to adopt an end-to-end framework for multi-task 3D perception, which can simplify the overall system architecture and reduce the implementation complexity. However, conflict between tasks often arises when optimizing multiple tasks jointly within an end-to-end 3D perception model. To alleviate these issues, we present an end-to-end framework named HENet for multi-task 3D perception in this paper. Specifically, we propose a hybrid image encoding network, using a large image encoder for short-term frames and a small image encoder for long-term temporal frames. Then, we introduce a temporal feature integration module based on the attention mechanism to fuse the features of different frames extracted by the two aforementioned hybrid image encoders. Finally, according to the characteristics of each perception task, we utilize BEV features of different grid sizes, independent BEV encoders, and task decoders for different tasks. Experimental results show that HENet achieves state-of-the-art end-to-end multi-task 3D perception results on the nuScenes benchmark, including 3D object detection and BEV semantic segmentation. The source code and models will be released at https://github.com/VDIGPKU/HENet.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# CPAISD : Core-penumbra急性虚血性脳梗塞データセット

CPAISD: Core-penumbra acute ischemic stroke dataset ( http://arxiv.org/abs/2404.02518v1 )

ライセンス: Link先を確認
D. Umerenkov, S. Kudin, M. Peksheva, D. Pavlov, (参考訳) CPAISD: Core-Penumbra acute Ischemic Stroke Datasetは非造影CT(non-Contrast Computed Tomography)スキャンを用いて虚血性脳梗塞の早期発見とセグメンテーションを促進することを目的としている。 急性虚血性脳梗塞を早期に診断する上での課題に対処するため、このデータセットはNCCT画像のセグメンテーションを提供する。 これらには虚血コアとペナムブラ領域のアノテーションが含まれており、迅速な脳卒中同定と評価のための機械学習モデルの開発に不可欠である。 慎重に収集された注釈付きデータセットを提供することで、高度な診断ツールの開発を容易にし、脳卒中管理における患者ケアの改善と成果に寄与することを目指している。 我々のデータセットの特異性は、非インフォーマティブなネイティブCTスキャンによる虚血性脳梗塞の急性期に焦点を当て、データセットの応用を実証するためのベースラインモデルを含み、医療画像や脳卒中診断の分野におけるさらなる研究と革新を奨励している。

We introduce the CPAISD: Core-Penumbra Acute Ischemic Stroke Dataset, aimed at enhancing the early detection and segmentation of ischemic stroke using Non-Contrast Computed Tomography (NCCT) scans. Addressing the challenges in diagnosing acute ischemic stroke during its early stages due to often non-revealing native CT findings, the dataset provides a collection of segmented NCCT images. These include annotations of ischemic core and penumbra regions, critical for developing machine learning models for rapid stroke identification and assessment. By offering a carefully collected and annotated dataset, we aim to facilitate the development of advanced diagnostic tools, contributing to improved patient care and outcomes in stroke management. Our dataset's uniqueness lies in its focus on the acute phase of ischemic stroke, with non-informative native CT scans, and includes a baseline model to demonstrate the dataset's application, encouraging further research and innovation in the field of medical imaging and stroke diagnosis.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# 調査重み推定の個人的検証

Differentially Private Verification of Survey-Weighted Estimates ( http://arxiv.org/abs/2404.02519v1 )

ライセンス: Link先を確認
Tong Lin, Jerome P. Reiter, (参考訳) いくつかの公式統計機関は、公用マイクロデータファイルとして合成データを公開している。 実際には、合成データはすべての分析に対して正確な結果を認めない。 したがって、合成データの質に関するフィードバックを利用者に提供することは、機関にとって有益である。 1つのアプローチは、合成データを検証サーバと組み合わせることで、ユーザーは合成データと基礎となる機密データで計算された推定値の類似度を計測する。 しかし、これらの措置は機密記録に関する情報を漏洩させ、機関が公表された検証措置に開示管理手法を適用したいと願っている。 本稿では,差分プライバシーを満足し,基礎となる機密情報を複雑なサーベイ設計で収集する場合に利用できる検証尺度を提案する。 提案手法は, 秘密データを標本化し, 人口総数, 平均を合成データで推定する, 繰り返しサンプリングシミュレーションによる検証手法である。 シミュレーションにより, この検証手法は, 合成データ推論の品質に関する有用な情報を提供することが可能であることが示唆された。

Several official statistics agencies release synthetic data as public use microdata files. In practice, synthetic data do not admit accurate results for every analysis. Thus, it is beneficial for agencies to provide users with feedback on the quality of their analyses of the synthetic data. One approach is to couple synthetic data with a verification server that provides users with measures of the similarity of estimates computed with the synthetic and underlying confidential data. However, such measures leak information about the confidential records, so that agencies may wish to apply disclosure control methods to the released verification measures. We present a verification measure that satisfies differential privacy and can be used when the underlying confidential are collected with a complex survey design. We illustrate the verification measure using repeated sampling simulations where the confidential data are sampled with a probability proportional to size design, and the analyst estimates a population total or mean with the synthetic data. The simulations suggest that the verification measures can provide useful information about the quality of synthetic data inferences.
翻訳日:2024-04-04 18:19:59 公開日:2024-04-03
# エゴセントリック・ビジョンによるテキスト駆動型アクダクタンス学習

Text-driven Affordance Learning from Egocentric Vision ( http://arxiv.org/abs/2404.02523v1 )

ライセンス: Link先を確認
Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori, (参考訳) 視覚的な余裕学習は、ロボットがオブジェクトと対話する方法を理解するための重要な要素である。 この分野での従来のアプローチは、定義済みのオブジェクトとアクションに依存しており、現実世界のシナリオにおける多様な相互作用を捉えていない。 このアプローチの鍵となるアイデアは、幅広いオブジェクトに対してさまざまな余裕をターゲットとしたテキスト命令を使うことです。 このアプローチは、ハンドオブジェクトとツールオブジェクトの相互作用の両方をカバーする。 そこで本研究では,テキスト指導に追従した自我中心的な視点から,接触点の学習と軌跡の操作を目的としたテキスト駆動型アベイランス学習を提案する。 本課題では, 接触点を熱マップとして表現し, 操作軌跡を線形および回転運動の両方を含む座標列として表現する。 しかし、このタスクのデータを収集する場合、これらの多様なインタラクションのマニュアルアノテーションはコストがかかる。 この目的のために、擬似データセット作成パイプラインを提案し、巨大な擬似学習データセットであるTextAFF80Kを構築し、接触点、軌跡、画像、テキストタプルの80K以上のインスタンスで構成される。 本研究では,既存の参照表現理解モデルを拡張し,実世界のシナリオにおける空き学習の新たな標準として,複数の空き時間に頑健に対処できることを実験的に示す。

Visual affordance learning is a key component for robots to understand how to interact with objects. Conventional approaches in this field rely on pre-defined objects and actions, falling short of capturing diverse interactions in realworld scenarios. The key idea of our approach is employing textual instruction, targeting various affordances for a wide range of objects. This approach covers both hand-object and tool-object interactions. We introduce text-driven affordance learning, aiming to learn contact points and manipulation trajectories from an egocentric view following textual instruction. In our task, contact points are represented as heatmaps, and the manipulation trajectory as sequences of coordinates that incorporate both linear and rotational movements for various manipulations. However, when we gather data for this task, manual annotations of these diverse interactions are costly. To this end, we propose a pseudo dataset creation pipeline and build a large pseudo-training dataset: TextAFF80K, consisting of over 80K instances of the contact points, trajectories, images, and text tuples. We extend existing referring expression comprehension models for our task, and experimental results show that our approach robustly handles multiple affordances, serving as a new standard for affordance learning in real-world scenarios.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# 脆弱性検出と修復のための大規模言語モデル:文献レビューとロードマップ

Large Language Model for Vulnerability Detection and Repair: Literature Review and Roadmap ( http://arxiv.org/abs/2404.02525v1 )

ライセンス: Link先を確認
Xin Zhou, Sicong Cao, Xiaobing Sun, David Lo, (参考訳) 大規模言語モデル(LLM)の大幅な進歩により、脆弱性検出や修復を含むソフトウェア工学(SE)の様々なタスクに広く採用されている。 近年,脆弱性検出や修復作業の強化にLLMを適用する研究が盛んに行われている。 研究の関心が高まっているにもかかわらず、脆弱性の検出と修復にLLMを活用することに焦点を当てた既存の調査は存在しない。 本稿では,LSMの活用による脆弱性検出と修復の改善を目的とした手法の体系的な文献レビューを提供することにより,このギャップを埋めることを目的としている。 このレビューは、SE、AI、およびセキュリティカンファレンスおよびジャーナルをリードする研究成果を含み、21の異なる会場で発行された36の論文をカバーしている。 3つの重要な研究課題に答えることにより、(1)関連文献で用いられるLLMを要約し、(2)脆弱性検出における様々なLLM適応テクニックを分類し、(3)脆弱性修復における様々なLLM適応テクニックを分類することを目指す。 以上の結果から,既存の研究を考慮に入れた上で,課題の解決に留意すべき課題がいくつか見出された。 さらに、今後の研究に欠かせない、重要かつ重要な可能性を示すロードマップを概説した。

The significant advancements in Large Language Models (LLMs) have resulted in their widespread adoption across various tasks within Software Engineering (SE), including vulnerability detection and repair. Numerous recent studies have investigated the application of LLMs to enhance vulnerability detection and repair tasks. Despite the increasing research interest, there is currently no existing survey that focuses on the utilization of LLMs for vulnerability detection and repair. In this paper, we aim to bridge this gap by offering a systematic literature review of approaches aimed at improving vulnerability detection and repair through the utilization of LLMs. The review encompasses research work from leading SE, AI, and Security conferences and journals, covering 36 papers published at 21 distinct venues. By answering three key research questions, we aim to (1) summarize the LLMs employed in the relevant literature, (2) categorize various LLM adaptation techniques in vulnerability detection, and (3) classify various LLM adaptation techniques in vulnerability repair. Based on our findings, we have identified a series of challenges that still need to be tackled considering existing studies. Additionally, we have outlined a roadmap highlighting potential opportunities that we believe are pertinent and crucial for future research endeavors.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# 視覚言語支援擬似ラベルによる弱教師付き3次元シーングラフ生成

Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling ( http://arxiv.org/abs/2404.02527v1 )

ライセンス: Link先を確認
Xu Wang, Yifan Li, Qiudan Zhang, Wenhui Wu, Mark Junjie Li, Jianmin Jinag, (参考訳) 3Dシーングラフを構築することを学ぶことは、構造化されたリッチな方法で現実世界の知覚に不可欠である。 しかし,従来の3次元シーングラフ生成手法では,完全に教師付き学習方式を採用し,膨大な量のオブジェクトと関係のエンティティレベルのアノテーションデータを必要とする。 この問題に対処するために,視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法である3D-VLAPを提案する。 具体的には、3D-VLAPは、現在の大規模視覚言語モデルの優れた能力を利用して、テキストと2D画像のセマンティクスを整合させ、また、2D画像と3Dポイントクラウドの自然な対応を生かし、テキストと3Dポイントクラウド間の対応を暗黙的に構築する。 まず,3次元点群から2次元画像への位置対応をカメラ内在パラメータおよび外在パラメータを用いて確立し,3次元点群と2次元画像のアライメントを実現する。 その後、大規模クロスプラットフォームの視覚言語モデルを用いて、オブジェクトのテキストカテゴリラベルと2D画像とオブジェクトカテゴリラベルとを一致させることで、3Dインスタンスを間接的にオブジェクトのテキストカテゴリラベルに整列させる。 対象と関係の擬似ラベルは、3D-VLAPモデルトレーニングのために生成され、視覚的埋め込みと、視覚言語モデルで符号化された対象と関係のテキストカテゴリー埋め込みの類似性を計算する。 最終的に、エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。 我々の3D-VLAPは、データアノテーションの圧力を著しく軽減しつつ、現在の高度な完全教師付き手法と同等の結果が得られることを示した。

Learning to build 3D scene graphs is essential for real-world perception in a structured and rich fashion. However, previous 3D scene graph generation methods utilize a fully supervised learning manner and require a large amount of entity-level annotation data of objects and relations, which is extremely resource-consuming and tedious to obtain. To tackle this problem, we propose 3D-VLAP, a weakly-supervised 3D scene graph generation method via Visual-Linguistic Assisted Pseudo-labeling. Specifically, our 3D-VLAP exploits the superior ability of current large-scale visual-linguistic models to align the semantics between texts and 2D images, as well as the naturally existing correspondences between 2D images and 3D point clouds, and thus implicitly constructs correspondences between texts and 3D point clouds. First, we establish the positional correspondence from 3D point clouds to 2D images via camera intrinsic and extrinsic parameters, thereby achieving alignment of 3D point clouds and 2D images. Subsequently, a large-scale cross-modal visual-linguistic model is employed to indirectly align 3D instances with the textual category labels of objects by matching 2D images with object category labels. The pseudo labels for objects and relations are then produced for 3D-VLAP model training by calculating the similarity between visual embeddings and textual category embeddings of objects and relations encoded by the visual-linguistic model, respectively. Ultimately, we design an edge self-attention based graph neural network to generate scene graphs of 3D point cloud scenes. Extensive experiments demonstrate that our 3D-VLAP achieves comparable results with current advanced fully supervised methods, meanwhile significantly alleviating the pressure of data annotation.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# 指導構造と品質の相互作用分析のための学生評価コーパス

A School Student Essay Corpus for Analyzing Interactions of Argumentative Structure and Quality ( http://arxiv.org/abs/2404.02529v1 )

ライセンス: Link先を確認
Maja Stahl, Nadine Michel, Sebastian Kilsbach, Julian Schmidtke, Sara Rezat, Henning Wachsmuth, (参考訳) 議論的な文章を学ぶことは難しい。 文法や文法などの基礎書を書くだけでなく、学習者は質の高いエッセイを作成するために、議論要素を有意義に選択・配置する必要がある。 議論的記述を計算的に支援するには、議論的構造をマイニングする。 自動エッセイスコアと組み合わせることで、議論構造と品質スコアの相互作用を総合的な筆記支援に活用することができる。 論文では,エッセイ評価のための議論構造情報の利用の有用性が示されているが,エッセイ評価基準を用いた議論マイニングコーパスは発表されていない。 また、現存するコーポラには特に学生が書いたエッセイは含まれていない。 この研究のギャップを埋めるために、2つの年齢層からなる大学生のエッセイ1,320件のドイツ語コーパスを提示する。 各エッセイは、複数のレベルの粒度の議論的構造と品質のために手動で注釈付けされている。 議論マイニングとエッセイスコアリングのためのベースラインアプローチを提案し、両タスク間の相互作用を分析し、品質指向の議論的記述支援の基盤となる。

Learning argumentative writing is challenging. Besides writing fundamentals such as syntax and grammar, learners must select and arrange argument components meaningfully to create high-quality essays. To support argumentative writing computationally, one step is to mine the argumentative structure. When combined with automatic essay scoring, interactions of the argumentative structure and quality scores can be exploited for comprehensive writing support. Although studies have shown the usefulness of using information about the argumentative structure for essay scoring, no argument mining corpus with ground-truth essay quality annotations has been published yet. Moreover, none of the existing corpora contain essays written by school students specifically. To fill this research gap, we present a German corpus of 1,320 essays from school students of two age groups. Each essay has been manually annotated for argumentative structure and quality on multiple levels of granularity. We propose baseline approaches to argument mining and essay scoring, and we analyze interactions between both tasks, thereby laying the ground for quality-oriented argumentative writing support.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# 重大性制御によるテキスト・画像生成モデルバイアス操作

Severity Controlled Text-to-Image Generative Model Bias Manipulation ( http://arxiv.org/abs/2404.02530v1 )

ライセンス: Link先を確認
Jordan Vice, Naveed Akhtar, Richard Hartley, Ajmal Mian, (参考訳) テキスト・ツー・イメージ(T2I)生成モデルは,特にパブリックドメインにおいて広く普及している。 しかし、本質的な偏見と潜在的な悪意のある操作はいまだ未発見のままである。 このような操作に対するT2Iモデルの感受性をグラフ化し、組込み言語モデルをターゲットにして、モデルバイアスを動的かつ計算的に効果的に活用する新たな可能性を明らかにする。 ベクトル代数の数学的基礎を活用することにより、モデルバイアスによる出力操作の重大性に対するスケーラブルで便利な制御を可能にする。 副産物として、この制御は、正確なプロンプトエンジニアリングの形式によって、通常テキストプロンプトで一般に理解できない画像を生成することを可能にする。 また、モデルデバイアスのように、生成されたクラスの頻度のバランスをとるための操作の構成的応用を示す。 本手法はトレーニングを必要とせず,プロンプト内の意味的に無効なテキストトリガを用いた重大度制御によるバックドアアタックとしてフレーム化されている。 本稿では,T2Iモデルの潜在的な操作可能性を明らかにするために,興味深い定性的および定量的な結果を示す。 キーワード:テキスト・ツー・イメージモデル、生成モデル、バックドアアタック、プロンプトエンジニアリング、バイアス

Text-to-image (T2I) generative models are gaining wide popularity, especially in public domains. However, their intrinsic bias and potential malicious manipulations remain under-explored. Charting the susceptibility of T2I models to such manipulation, we first expose the new possibility of a dynamic and computationally efficient exploitation of model bias by targeting the embedded language models. By leveraging mathematical foundations of vector algebra, our technique enables a scalable and convenient control over the severity of output manipulation through model bias. As a by-product, this control also allows a form of precise prompt engineering to generate images which are generally implausible with regular text prompts. We also demonstrate a constructive application of our manipulation for balancing the frequency of generated classes - as in model debiasing. Our technique does not require training and is also framed as a backdoor attack with severity control using semantically-null text triggers in the prompts. With extensive analysis, we present interesting qualitative and quantitative results to expose potential manipulation possibilities for T2I models. Key-words: Text-to-Image Models, Generative Models, Backdoor Attacks, Prompt Engineering, Bias
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# ディグライズを学ぶ:マルチエージェントアタッカー・ディグライザーゲームによるLLMの防御における拒絶反応の回避

Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game ( http://arxiv.org/abs/2404.02532v1 )

ライセンス: Link先を確認
Qianqiao Xu, Zhiliang Tian, Hongyan Wu, Zhen Huang, Yiping Song, Feng Liu, Dongsheng Li, (参考訳) 自然言語処理タスクにおける大規模モデルのパフォーマンスの向上により、大規模モデルの潜在的な道徳的および倫理的問題が発生する。 ジェイルブレイクに大規模なモデルを誘導し、プロンプトエンジニアリングのような技術を通じて、違法でプライバシーに侵害された情報を含む情報を生成する悪意のある攻撃者が存在する。 その結果、大規模なモデルは、安全アライメントなどの技術を用いて悪意ある攻撃者の攻撃に対抗している。 しかし、拒否応答による大型モデルの強力な防御機構は、攻撃者によって容易に識別され、攻撃者の能力を強化するために使用される。 本稿では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。 まず,攻撃・防衛シナリオをシミュレートするマルチエージェント・フレームワークを構築し,攻撃・偽装・安全評価・疑似評価タスクに責任を負う様々な役割を演じる。 その後、攻撃者および偽装者のゲーム戦略を最適化するために攻撃と偽装ゲームアルゴリズムを設計し、カリキュラム学習プロセスを用いてエージェントの能力を強化する。 実験により, 本手法は, 他の手法と比較して, 防御意図を偽装するモデルの能力を高めるのに有効であることが確認された。 さらに,本手法では,ブラックボックスの大型モデルに対して,防御的モデルを支援することができ,モデルバージョンイテレーションに支障を来さない。

With the enhanced performance of large models on natural language processing tasks, potential moral and ethical issues of large models arise. There exist malicious attackers who induce large models to jailbreak and generate information containing illegal, privacy-invasive information through techniques such as prompt engineering. As a result, large models counter malicious attackers' attacks using techniques such as safety alignment. However, the strong defense mechanism of the large model through rejection replies is easily identified by attackers and used to strengthen attackers' capabilities. In this paper, we propose a multi-agent attacker-disguiser game approach to achieve a weak defense mechanism that allows the large model to both safely reply to the attacker and hide the defense intent. First, we construct a multi-agent framework to simulate attack and defense scenarios, playing different roles to be responsible for attack, disguise, safety evaluation, and disguise evaluation tasks. After that, we design attack and disguise game algorithms to optimize the game strategies of the attacker and the disguiser and use the curriculum learning process to strengthen the capabilities of the agents. The experiments verify that the method in this paper is more effective in strengthening the model's ability to disguise the defense intent compared with other methods. Moreover, our approach can adapt any black-box large model to assist the model in defense and does not suffer from model version iterations.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# ANGOFA: アンゴラ語モデルの初期化と合成データの導入

ANGOFA: Leveraging OFA Embedding Initialization and Synthetic Data for Angolan Language Model ( http://arxiv.org/abs/2404.02534v1 )

ライセンス: Link先を確認
Osvaldo Luamba Quinjica, David Ifeoluwa Adelani, (参考訳) 近年、プレトレーニング言語モデル(PLM)の開発が勢いを増し、言語障壁を超越し、多様な言語間の知識伝達を促進する能力を示している。 しかし、この進歩は、非常に低いリソース言語を含むことをほとんど回避し、多言語環境において顕著な空白を生み出した。 本稿では,多言語適応微調整(MAFT)アプローチを用いて,アンゴラ語に特化された4つのPLMを導入することで,このギャップを解消する。 本稿では、下流タスクにおけるMAFTモデルの性能向上における情報埋め込み初期化と合成データの役割について調査する。 我々は,SOTA AfroXLMRベース(MAFTにより開発された)とOFA(効果的な埋め込み初期化)のベースラインを,それぞれ12.3ポイント,3.8ポイント改善する。

In recent years, the development of pre-trained language models (PLMs) has gained momentum, showcasing their capacity to transcend linguistic barriers and facilitate knowledge transfer across diverse languages. However, this progress has predominantly bypassed the inclusion of very-low resource languages, creating a notable void in the multilingual landscape. This paper addresses this gap by introducing four tailored PLMs specifically finetuned for Angolan languages, employing a Multilingual Adaptive Fine-tuning (MAFT) approach. In this paper, we survey the role of informed embedding initialization and synthetic data in enhancing the performance of MAFT models in downstream tasks. We improve baseline over SOTA AfroXLMR-base (developed through MAFT) and OFA (an effective embedding initialization) by 12.3 and 3.8 points respectively.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# 変圧器を用いた潜時空間流れの収束解析

Convergence Analysis of Flow Matching in Latent Space with Transformers ( http://arxiv.org/abs/2404.02538v1 )

ライセンス: Link先を確認
Yuling Jiao, Yanming Lai, Yang Wang, Bokai Yan, (参考訳) 本稿では,ODEに基づく生成モデル,特にフローマッチングに関する理論的収束保証について述べる。 トレーニング済みのオートエンコーダネットワークを用いて、高次元の原入力を低次元の潜在空間にマッピングし、トランスフォーマーネットワークをトレーニングし、標準正規分布から目標潜在分布への変換速度場を予測する。 提案手法の誤差解析により, 提案手法の有効性を実証し, 推定ODEフローにより生成された試料の分布が, 軽度かつ実用的な仮定の下で, ワッサーシュタイン2距離の目標分布に収束することを示した。 さらに、任意の滑らかな関数は、独立な関心を持つかもしれないリプシッツ連続性を持つ変圧器ネットワークによって効果的に近似できることを示す。

We present theoretical convergence guarantees for ODE-based generative models, specifically flow matching. We use a pre-trained autoencoder network to map high-dimensional original inputs to a low-dimensional latent space, where a transformer network is trained to predict the velocity field of the transformation from a standard normal distribution to the target latent distribution. Our error analysis demonstrates the effectiveness of this approach, showing that the distribution of samples generated via estimated ODE flow converges to the target distribution in the Wasserstein-2 distance under mild and practical assumptions. Furthermore, we show that arbitrary smooth functions can be effectively approximated by transformer networks with Lipschitz continuity, which may be of independent interest.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# CSE Prompts: コンピュータサイエンス入門のベンチマーク

CSEPrompts: A Benchmark of Introductory Computer Science Prompts ( http://arxiv.org/abs/2404.02540v1 )

ライセンス: Link先を確認
Nishat Raihan, Dhiman Goswami, Sadiya Sayara Chowdhury Puspo, Christian Newman, Tharindu Ranasinghe, Marcos Zampieri, (参考訳) AI、機械学習、NLPの最近の進歩は、大量のデータに基づいて訓練され、しばしば数兆のパラメータを持つ新しい世代のLarge Language Models(LLM)の開発につながっている。 商用アプリケーション(例えばChatGPT)は、この技術を一般向けに提供し、学術的・専門的な目的のために高品質なテキストを作成するためにLLMを使用することを可能にした。 学校や大学は、学生によるAI生成コンテンツの利用の増加に気づいており、この新しい技術とその潜在的な誤用の影響を調査している。 コンピュータサイエンス(CS)および関連分野の教育プログラムは、LLMが様々なプログラミング言語でプログラムコードを生成することができるため、特に影響を受けている。 CS教育におけるLLMの潜在的影響を理解するために,CSEPromptsを紹介した。 また, CSE Prompts を用いて,Python コードの生成や基礎的なコンピュータ科学やプログラミング問題への回答に関して,いくつかの LLM の性能評価を行った。

Recent advances in AI, machine learning, and NLP have led to the development of a new generation of Large Language Models (LLMs) that are trained on massive amounts of data and often have trillions of parameters. Commercial applications (e.g., ChatGPT) have made this technology available to the general public, thus making it possible to use LLMs to produce high-quality texts for academic and professional purposes. Schools and universities are aware of the increasing use of AI-generated content by students and they have been researching the impact of this new technology and its potential misuse. Educational programs in Computer Science (CS) and related fields are particularly affected because LLMs are also capable of generating programming code in various programming languages. To help understand the potential impact of publicly available LLMs in CS education, we introduce CSEPrompts, a framework with hundreds of programming exercise prompts and multiple-choice questions retrieved from introductory CS and programming courses. We also provide experimental results on CSEPrompts to evaluate the performance of several LLMs with respect to generating Python code and answering basic computer science and programming questions.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# Unbiased Learning to Rankが現実に到達 - Baiduの大規模検索データセットから学んだこと

Unbiased Learning to Rank Meets Reality: Lessons from Baidu's Large-Scale Search Dataset ( http://arxiv.org/abs/2404.02543v1 )

ライセンス: Link先を確認
Philipp Hager, Romain Deffayet, Jean-Michel Renders, Onno Zoeter, Maarten de Rijke, (参考訳) Unbiased Learning-to-rank(ULTR)は、ユーザのクリックから学習するための、確立されたフレームワークである。 理論上は正当化され、シミュレーションで広範囲にテストされたが、ULTR技術は特に現代の検索エンジンでは実証的な検証を欠いている。 Baiduの検索エンジンから収集されたWSDM Cup 2023用のデータセットは、著名なULTR技術の実際のパフォーマンスを評価する稀な機会を提供する。 WSDMカップ2023およびその後のNTCIR ULTRE-2タスクにおける複数の提案にもかかわらず、観察された改善がULTRや他の学習技術の適用に起因するかどうかは不明である。 利用可能な実験を再検討し、拡張する。 特にランキング損失とクエリドキュメント機能の選択によって生じる相違点に比較して,非バイアスの学習 to ランク技術ではパフォーマンスが向上しないことがわかった。 実験の結果,ULTRはクリック予測を頑健に改善することがわかった。 しかし、これらのクリック予測の上昇は、専門家の関連アノテーションのランク付け性能の向上には寄与しない。

Unbiased learning-to-rank (ULTR) is a well-established framework for learning from user clicks, which are often biased by the ranker collecting the data. While theoretically justified and extensively tested in simulation, ULTR techniques lack empirical validation, especially on modern search engines. The dataset released for the WSDM Cup 2023, collected from Baidu's search engine, offers a rare opportunity to assess the real-world performance of prominent ULTR techniques. Despite multiple submissions during the WSDM Cup 2023 and the subsequent NTCIR ULTRE-2 task, it remains unclear whether the observed improvements stem from applying ULTR or other learning techniques. We revisit and extend the available experiments. We find that unbiased learning-to-rank techniques do not bring clear performance improvements, especially compared to the stark differences brought by the choice of ranking loss and query-document features. Our experiments reveal that ULTR robustly improves click prediction. However, these gains in click prediction do not translate to enhanced ranking performance on expert relevance annotations, implying that conclusions strongly depend on how success is measured in this benchmark.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# 野生における半監督型非拘束型頭部電位推定

Semi-Supervised Unconstrained Head Pose Estimation in the Wild ( http://arxiv.org/abs/2404.02544v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Hongtao Lu, (参考訳) 既存の頭部ポーズ推定データセットは、非現実的な合成や実験室の収集によって多数のサンプルで構成されているか、労働集約的な注釈による限られた画像で構成されている。 これにより、寛大なラベル付きデータに依存するため、深い教師付き学習ベースのソリューションが妥協される。 そこで本研究では,大量の野生の頭部画像を利用する半教師付き非拘束型頭部ポーズ推定法(SemiUHPE)を提案する。 具体的には、最近の半教師付き回転回帰に追従し、多様で複雑な頭部ポーズ領域に焦点を当てる。 第一に、頭部のアスペクト比不変な収穫は、ラベルのない自然の頭部やランドマークがしばしば利用できない実用的な用途に適合しない、以前のランドマークベースのアフィンアライメントよりも優れていると主張する。 そこで,実験的に固定されたしきい値を用いて擬似ラベルをフィルタリングする代わりに,ラベルなしの外れ値を適応的に除去するしきい値の更新による動的エントロピーに基づくフィルタリングを提案する。 さらに,弱張力強化の設計を再考し,その優位性を更に活用するために,ポーズ非関連カットオクルージョンとポーズ-アターリング回転整合性という2つの新しい頭部指向強強化法を考案した。 大規模な実験により、SemiUHPEは、フロントレンジとフルレンジの両方で、公開ベンチマークに顕著な改善を加えながら、SOTAを超えることができることが示された。 私たちのコードは \url{https://github.com/hnuzhy/SemiUHPE} でリリースされています。

Existing head pose estimation datasets are either composed of numerous samples by non-realistic synthesis or lab collection, or limited images by labor-intensive annotating. This makes deep supervised learning based solutions compromised due to the reliance on generous labeled data. To alleviate it, we propose the first semi-supervised unconstrained head pose estimation (SemiUHPE) method, which can leverage a large amount of unlabeled wild head images. Specifically, we follow the recent semi-supervised rotation regression, and focus on the diverse and complex head pose domain. Firstly, we claim that the aspect-ratio invariant cropping of heads is superior to the previous landmark-based affine alignment, which does not fit unlabeled natural heads or practical applications where landmarks are often unavailable. Then, instead of using an empirically fixed threshold to filter out pseudo labels, we propose the dynamic entropy-based filtering by updating thresholds for adaptively removing unlabeled outliers. Moreover, we revisit the design of weak-strong augmentations, and further exploit its superiority by devising two novel head-oriented strong augmentations named pose-irrelevant cut-occlusion and pose-altering rotation consistency. Extensive experiments show that SemiUHPE can surpass SOTAs with remarkable improvements on public benchmarks under both front-range and full-range. Our code is released in \url{https://github.com/hnuzhy/SemiUHPE}.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# オフライン強化学習のためのグリッドマッピング擬似制約

Grid-Mapping Pseudo-Count Constraint for Offline Reinforcement Learning ( http://arxiv.org/abs/2404.02545v1 )

ライセンス: Link先を確認
Yi Shen, Hanyan Huang, Shan Xie, (参考訳) オフライン強化学習は、環境と対話することなく、静的データセットから学習する。 しかし、直感的な強化学習手法は、通常、オフ・オブ・ディストリビューション(OOD)アクションによる関数近似誤差によってオフライン環境で失敗する。 この問題を解決するために、既存のアルゴリズムは、OODアクションのQ-値(制約の質も重要である)を主にペナルティ化する。 不正確な制約は最適以下の解をもたらすが、厳密な制約は計算コストがかなり必要である。 本稿では,GPC法(Grid-Mapping Pseudo-Count method)と呼ばれる連続領域のカウントベース手法を提案する。 提案手法は,状態空間と行動空間を離散空間にマッピングし,擬似数を用いてQ値の制約を行う。 提案手法では, 正確な不確実性制約を得るためには, 少数の条件しか必要とされないことが理論的に証明されている。 さらに,GPCをソフト・アクター・クリティカル(SAC)フレームワークとして用いたグリッド・マッピング・擬似ソフト・アクター・クリティカル(GPC-SAC)アルゴリズムを開発し,GPCの有効性を実証した。 D4RLベンチマークデータセットの実験結果は、GPC-SACは他のアルゴリズムと比較して性能が良く、計算コストも低いことを示している。

Offline reinforcement learning learns from a static dataset without interacting with the environment, which ensures security and thus owns a good prospect of application. However, directly applying naive reinforcement learning methods usually fails in an offline environment due to function approximation errors caused by out-of-distribution(OOD) actions. To solve this problem, existing algorithms mainly penalize the Q-value of OOD actions, the quality of whose constraints also matter. Imprecise constraints may lead to suboptimal solutions, while precise constraints require significant computational costs. In this paper, we propose a novel count-based method for continuous domains, called Grid-Mapping Pseudo-Count method(GPC), to penalize the Q-value appropriately and reduce the computational cost. The proposed method maps the state and action space to discrete space and constrains their Q-values through the pseudo-count. It is theoretically proved that only a few conditions are needed to obtain accurate uncertainty constraints in the proposed method. Moreover, we develop a Grid-Mapping Pseudo-Count Soft Actor-Critic(GPC-SAC) algorithm using GPC under the Soft Actor-Critic(SAC) framework to demonstrate the effectiveness of GPC. The experimental results on D4RL benchmark datasets show that GPC-SAC has better performance and less computational cost compared to other algorithms.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# ソフトウェア工学教育におけるAIチューニング

AI-Tutoring in Software Engineering Education ( http://arxiv.org/abs/2404.02548v1 )

ライセンス: Link先を確認
Eduard Frankford, Clemens Sauerwein, Patrick Bassner, Stephan Krusche, Ruth Breu, (参考訳) 様々な領域における人工知能(AI)の急速な進歩により、教育部門は変革をめざすことになる。 学習体験、特にプログラミングにおけるAI駆動ツールの可能性は非常に大きい。 しかし、AI-Tutorとして自動プログラミングアセスメントシステム(APAS)で使用されるLarge Language Models(LLMs)の科学的評価はほとんど未定である。 したがって、学生がそのようなAI-Tutorとどのように相互作用するかを理解し、その経験を分析する必要がある。 本稿では,GAT-3.5-TurboモデルをAI-TutorとしてAPASアルテミスに組み込むことにより,探索的ケーススタディを行った。 実験データ収集と探索調査を組み合わせることで,AI-Tutorとのインタラクションパターンに基づいて,さまざまなユーザタイプを特定した。 さらにこの発見は、タイムリーなフィードバックやスケーラビリティといったメリットも強調している。 しかし,AI-Tutor を用いた場合,一般的な応答や学習進行抑制に対する学生の懸念も明らかであった。 この研究は、AIの教育における役割について論じるものである。

With the rapid advancement of artificial intelligence (AI) in various domains, the education sector is set for transformation. The potential of AI-driven tools in enhancing the learning experience, especially in programming, is immense. However, the scientific evaluation of Large Language Models (LLMs) used in Automated Programming Assessment Systems (APASs) as an AI-Tutor remains largely unexplored. Therefore, there is a need to understand how students interact with such AI-Tutors and to analyze their experiences. In this paper, we conducted an exploratory case study by integrating the GPT-3.5-Turbo model as an AI-Tutor within the APAS Artemis. Through a combination of empirical data collection and an exploratory survey, we identified different user types based on their interaction patterns with the AI-Tutor. Additionally, the findings highlight advantages, such as timely feedback and scalability. However, challenges like generic responses and students' concerns about a learning progress inhibition when using the AI-Tutor were also evident. This research adds to the discourse on AI's role in education.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# 太陽合成イメージング:SDO/AIAデータに基づく拡散確率モデルの導入

Solar synthetic imaging: Introducing denoising diffusion probabilistic models on SDO/AIA data ( http://arxiv.org/abs/2404.02552v1 )

ライセンス: Link先を確認
Francesco P. Ramunno, S. Hackstein, V. Kinakh, M. Drozdova, G. Quetant, A. Csillaghy, S. Voloshynovskiy, (参考訳) 太陽フレアが小さいものに比べて希少であることを考えると、太陽活動予測のための効果的な機械学習モデルの訓練は不十分なデータのために困難である。 本研究では, 様々な強度のフレアを含む太陽現象の合成画像を作成するために, 生成的深層学習モデル, 特にDenoising Diffusion Probabilistic Model (DDPM) を用いて提案する。 SDO衛星に搭載されたAIA機器のデータセットを用いて、様々な太陽活動を捉えた171 {\AA}バンドに焦点をあて、フレア強度に基づくGOES X線測定で画像を分類することで、データ不足問題に対処することを目指している。 DDPMのパフォーマンスは、クラスタメトリクス、Frechet Inception Distance (FID)、F1スコアを用いて評価され、現実的な太陽画像を生成する上で有望な結果を示している。 イベント識別のための教師付き分類器と基本的なフレア予測のための2つの実験を行い、不均衡なデータセットを管理する際の合成データの価値を実証した。 本研究は、太陽データ分析および予測におけるDDPMの可能性を強調し、太陽フレア予測能力と他の深層学習および物理タスクへの応用に関するさらなる調査を示唆する。

Given the rarity of significant solar flares compared to smaller ones, training effective machine learning models for solar activity forecasting is challenging due to insufficient data. This study proposes using generative deep learning models, specifically a Denoising Diffusion Probabilistic Model (DDPM), to create synthetic images of solar phenomena, including flares of varying intensities. By employing a dataset from the AIA instrument aboard the SDO spacecraft, focusing on the 171 {\AA} band that captures various solar activities, and classifying images with GOES X-ray measurements based on flare intensity, we aim to address the data scarcity issue. The DDPM's performance is evaluated using cluster metrics, Frechet Inception Distance (FID), and F1-score, showcasing promising results in generating realistic solar imagery. We conduct two experiments: one to train a supervised classifier for event identification and another for basic flare prediction, demonstrating the value of synthetic data in managing imbalanced datasets. This research underscores the potential of DDPMs in solar data analysis and forecasting, suggesting further exploration into their capabilities for solar flare prediction and application in other deep learning and physical tasks.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# ニューラルリグレッショントレーのエキスパート誘導による系統過渡安定度評価法

An Interpretable Power System Transient Stability Assessment Method with Expert Guiding Neural-Regression-Tree ( http://arxiv.org/abs/2404.02555v1 )

ライセンス: Link先を確認
Hanxuan Wang, Na Lu, Zixuan Wang, Jiacheng Liu, Jun Liu, (参考訳) 深層学習に基づく過渡的安定性評価(TSA)は大きな成功を収めているが、解釈可能性の欠如は産業的応用を妨げる。 1) 広く受け入れられた電力系統知識と生成された解釈規則との差が大きいこと,(2) 解釈規則の生成時にニューラルネットワークの確率特性が十分に考慮されていないこと,(3) 精度と解釈可能性の間のトレードオフコストが重すぎること,などである。 これらの問題に対処するために,TSA-ENRT(Neural-Regression-Tree)をエキスパートに導いた過渡安定度評価手法を提案する。 TSA-ENRTは、非線形回帰木を導く専門家を用いてニューラルネットワーク予測を近似し、ニューラルネットワークはツリーモデルによって生成された解釈規則によって説明できる。 非線形回帰木を導くエキスパートの非線形性は、専門家の知識基盤を形成する単純な2つのマシン3バスパワーシステムから抽出された知識により与えられるので、生成された解釈規則は人間の認知とより整合する。 さらに、専門家ガイドツリーモデルは、解釈規則とニューラルネットワークの確率予測を回帰的に橋渡しすることができる。 ニューラルネットワークをENRTの平均決定長で正規化することにより、ニューラルネットワークとツリーモデルの関連性はモデルトレーニングレベルに構築され、精度と解釈可能性のトレードオフが向上する。 広範囲にわたる実験は、提案されたTSA-ENRTによって生成された解釈規則は、ニューラルネットワークの予測と非常に一致しており、人間の専門家の認知とより一致していることを示している。

Deep learning based transient stability assessment (TSA) has achieved great success, yet the lack of interpretability hinders its industrial application. Although a great number of studies have tried to explore the interpretability of network solutions, many problems still remain unsolved: (1) the difference between the widely accepted power system knowledge and the generated interpretive rules is large, (2) the probability characteristics of the neural network have not been fully considered during generating the interpretive rules, (3) the cost of the trade-off between accuracy and interpretability is too heavy to take. To address these issues, an interpretable power system Transient Stability Assessment method with Expert guiding Neural-Regression-Tree (TSA-ENRT) is proposed. TSA-ENRT utilizes an expert guiding nonlinear regression tree to approximate the neural network prediction and the neural network can be explained by the interpretive rules generated by the tree model. The nonlinearity of the expert guiding nonlinear regression tree is endowed with the extracted knowledge from a simple two-machine three-bus power system, which forms an expert knowledge base and thus the generated interpretive rules are more consistent with human cognition. Besides, the expert guiding tree model can build a bridge between the interpretive rules and the probability prediction of neural network in a regression way. By regularizing the neural network with the average decision length of ENRT, the association of the neural network and tree model is constructed in the model training level which provides a better trade-off between accuracy and interpretability. Extensive experiments indicate the interpretive rules generated by the proposed TSA-ENRT are highly consistent with the neural network prediction and more agreed with human expert cognition.
翻訳日:2024-04-04 18:10:13 公開日:2024-04-03
# 画像位置推定における地域バイアス--SenseCity Africa データセットを用いて

Regional biases in image geolocation estimation: a case study with the SenseCity Africa dataset ( http://arxiv.org/abs/2404.02558v1 )

ライセンス: Link先を確認
Ximena Salgado Uribe, Martí Bosch, Jérôme Chenal, (参考訳) 人工知能の進歩は、モデルのトレーニングに使用されるデータセットに根ざしたバイアスによって挑戦される。 画像位置推定では、モデルは主に特定の地理的領域、特に西洋世界のデータを用いて訓練され、結果として、表現されていない領域の複雑さを理解するのに苦労する可能性がある。 この問題を評価するため,アフリカ大陸 (SCA100) から得られた画像のクラウドソーシングデータセットにISN(State-of-the-art Image Geolocation Estimation Model)を適用し,そのモデルの予測に基づく地域的・社会経済的バイアスについて検討する。 この結果から,IM2GPS3kデータセットの地理的分布と一致し,西欧諸国の高所得国の画像位置を過度に予測する傾向が示唆された。 したがって、IM2GPS3kベンチマークと比較すると、ISNsモデルの精度は全スケールで顕著に低下する。 In addition, we cluster image of the SCA100 dataset based based the accurate they predicted by the ISNs model and show the model's difficulties to correct predicting the location of the low income region, especially in Sub-Saharan Africa。 そこで本研究では,IM2GPS3kを画像位置推定のトレーニングセットおよびベンチマークとして用いることで,アフリカにおける潜在的な応用を見落としていることを示す。

Advances in Artificial Intelligence are challenged by the biases rooted in the datasets used to train the models. In image geolocation estimation, models are mostly trained using data from specific geographic regions, notably the Western world, and as a result, they may struggle to comprehend the complexities of underrepresented regions. To assess this issue, we apply a state-of-the-art image geolocation estimation model (ISNs) to a crowd-sourced dataset of geolocated images from the African continent (SCA100), and then explore the regional and socioeconomic biases underlying the model's predictions. Our findings show that the ISNs model tends to over-predict image locations in high-income countries of the Western world, which is consistent with the geographic distribution of its training data, i.e., the IM2GPS3k dataset. Accordingly, when compared to the IM2GPS3k benchmark, the accuracy of the ISNs model notably decreases at all scales. Additionally, we cluster images of the SCA100 dataset based on how accurately they are predicted by the ISNs model and show the model's difficulties in correctly predicting the locations of images in low income regions, especially in Sub-Saharan Africa. Therefore, our results suggest that using IM2GPS3k as a training set and benchmark for image geolocation estimation and other computer vision models overlooks its potential application in the African context.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# scenario.center: 実世界のデータからシナリオデータベースへのメソッド

scenario.center: Methods from Real-world Data to a Scenario Database ( http://arxiv.org/abs/2404.02561v1 )

ライセンス: Link先を確認
Michael Schuldes, Christoph Glasmacher, Lutz Eckstein, (参考訳) シナリオベースのテストは、複雑な交通環境において純粋なオンロードテストが非効率であるように見えるため、自動走行システム(ADS)の開発、検証、検証を行うための有望な方法である。 このアプローチの大きな課題は、システムをテストするのに十分な数のシナリオのプロビジョニングと管理である。 近年の研究では,大規模シナリオの提供,生成,管理について検討している。 本稿では,シナリオベースのテストアプローチの必要性を包括的かつ自動的にカバーするシナリオデータを処理し,管理するためのシナリオデータベースシナリオ.center(https://scenario.center )を提案する。 これにより、このようなデータベースの要件が記述される。 これらのことから,4段階のアプローチが提案されている。 まず、品質要件が定義された共通入力形式を定義する。 これはイベントやベースシナリオを自動的に検出するために利用される。 さらに,検索性,データ品質評価,シナリオ生成方法の異なる手法を提案し,異なるニーズに合った広い適用性を実現する。 評価のために、この方法論は最先端のシナリオデータベースと比較される。 最後に、この方法論をinDデータセットに適用することにより、データベースのアプリケーションと機能を示す。 データベースインターフェースの公開デモはhttps://scenario.center.comで公開されている。

Scenario-based testing is a promising method to develop, verify and validate automated driving systems (ADS) since pure on-road testing seems inefficient for complex traffic environments. A major challenge for this approach is the provision and management of a sufficient number of scenarios to test a system. The provision, generation, and management of scenario at scale is investigated in current research. This paper presents the scenario database scenario.center ( https://scenario.center ) to process and manage scenario data covering the needs of scenario-based testing approaches comprehensively and automatically. Thereby, requirements for such databases are described. Based on those, a four-step approach is proposed. Firstly, a common input format with defined quality requirements is defined. This is utilized for detecting events and base scenarios automatically. Furthermore, methods for searchability, evaluation of data quality and different scenario generation methods are proposed to allow a broad applicability serving different needs. For evaluation, the methodology is compared to state-of-the-art scenario databases. Finally, the application and capabilities of the database are shown by applying the methodology to the inD dataset. A public demonstration of the database interface is provided at https://scenario.center .
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# 複数物体追跡のための表現アライメントコントラスト規則化

Representation Alignment Contrastive Regularization for Multi-Object Tracking ( http://arxiv.org/abs/2404.02562v1 )

ライセンス: Link先を確認
Shujie Chen, Zhonglin Liu, Jianfeng Dong, Di Zhou, (参考訳) 多目的追跡アルゴリズムの高性能化は,データアソシエーション段階における時空間関係のモデル化に大きく依存している。 メインストリームアプローチは、時空間関係モデリングのためのルールベースおよびディープラーニングベースの手法を含む。 前者は物理運動法則に依存し、より広い適用性を提供するが、複雑な物体の動きに対して最適な結果をもたらすが、後者は高い性能を達成するが、解釈性に欠け、複雑なモジュール設計を伴う。 本研究の目的は、深層学習に基づく時空間関係モデルを簡単にし、データアソシエーションのための機能に解釈可能性を導入することである。 具体的には、軽量な単層トランスエンコーダを用いて時空間関係をモデル化する。 特徴をより解釈的にするために、時空間整合性規則から導かれる表現アライメントに基づく2つの対照的な正則化損失を提案する。 アフィニティ行列に重み付け和を適用することで、アライメントされた機能は、元のトラッキングワークフローのデータアソシエーションステージにシームレスに統合できる。 実験の結果,既存の追跡ネットワークの性能の大部分を過度に複雑にすることなく向上させ,トレーニングオーバーヘッドが最小限に増加し,ほぼ無視可能な計算・記憶コストが増大することがわかった。

Achieving high-performance in multi-object tracking algorithms heavily relies on modeling spatio-temporal relationships during the data association stage. Mainstream approaches encompass rule-based and deep learning-based methods for spatio-temporal relationship modeling. While the former relies on physical motion laws, offering wider applicability but yielding suboptimal results for complex object movements, the latter, though achieving high-performance, lacks interpretability and involves complex module designs. This work aims to simplify deep learning-based spatio-temporal relationship models and introduce interpretability into features for data association. Specifically, a lightweight single-layer transformer encoder is utilized to model spatio-temporal relationships. To make features more interpretative, two contrastive regularization losses based on representation alignment are proposed, derived from spatio-temporal consistency rules. By applying weighted summation to affinity matrices, the aligned features can seamlessly integrate into the data association stage of the original tracking workflow. Experimental results showcase that our model enhances the majority of existing tracking networks' performance without excessive complexity, with minimal increase in training overhead and nearly negligible computational and storage costs.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# ロボット食品スライシング学習のためのデュアルシミュレーターフレームワークSliceIt!

SliceIt! -- A Dual Simulator Framework for Learning Robot Food Slicing ( http://arxiv.org/abs/2404.02569v1 )

ライセンス: Link先を確認
Cristian C. Beltran-Hernandez, Nicolas Erbetti, Masashi Hamaya, (参考訳) 調理ロボットは、日常の雑用の負担を軽減し、家庭での体験を向上させることができる。 しかし、これらのロボットは、特にキッチンナイフのような危険な道具を扱う場合、共有された人間の環境において、きめ細やかに安全にタスクを実行する必要がある。 本研究は、ロボットが自律的かつ安全に食品切断タスクを学習できるようにすることに焦点を当てる。 より具体的には、協調ロボットや産業用ロボットアームが、コンプライアンス制御を用いて様々な材料特性に適応して食品スライシングタスクを実行できるようにすることが目的である。 我々のアプローチは、強化学習(Reinforcement Learning, RL)を用いて、ロボットにナイフを忠実に操作するよう訓練することであり、食品や切削板に作用する接触力を減少させることである。 しかし、現実の世界でロボットを訓練することは非効率であり、危険であり、結果として多くの食品廃棄物が発生する。 そこで我々は,シミュレーションにおけるロボット食品スライシングタスクを安全かつ効率的に学習するフレームワークであるSliceIt!を提案した。 リアルな2sim2realアプローチに従って、我々のフレームワークは、実際の食品スライシングデータを収集し、二重シミュレーション環境(高忠実な切削シミュレータとロボットシミュレータ)を校正し、校正されたシミュレーション環境に準拠する制御ポリシーを学習し、最終的に実際のロボットにポリシーをデプロイする。

Cooking robots can enhance the home experience by reducing the burden of daily chores. However, these robots must perform their tasks dexterously and safely in shared human environments, especially when handling dangerous tools such as kitchen knives. This study focuses on enabling a robot to autonomously and safely learn food-cutting tasks. More specifically, our goal is to enable a collaborative robot or industrial robot arm to perform food-slicing tasks by adapting to varying material properties using compliance control. Our approach involves using Reinforcement Learning (RL) to train a robot to compliantly manipulate a knife, by reducing the contact forces exerted by the food items and by the cutting board. However, training the robot in the real world can be inefficient, and dangerous, and result in a lot of food waste. Therefore, we proposed SliceIt!, a framework for safely and efficiently learning robot food-slicing tasks in simulation. Following a real2sim2real approach, our framework consists of collecting a few real food slicing data, calibrating our dual simulation environment (a high-fidelity cutting simulator and a robotic simulator), learning compliant control policies on the calibrated simulation environment, and finally, deploying the policies on the real robot.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# MaiNLP at SemEval-2024 Task 1:Analytics Source Language Selection in Cross-Lingual Textual Relatedness (英語)

MaiNLP at SemEval-2024 Task 1: Analyzing Source Language Selection in Cross-Lingual Textual Relatedness ( http://arxiv.org/abs/2404.02570v1 )

ライセンス: Link先を確認
Shijia Zhou, Huangyan Shan, Barbara Plank, Robert Litschko, (参考訳) 本稿では,SemEval-2024 Task 1: Semantic Textual Relatedness (STR) on Track C: Cross-lingualについて述べる。 このタスクは、直接の監督(ゼロショットの言語間移動)にアクセスできることなく、与えられた対象言語における2つの文の意味的関連性を検出することを目的としている。 この目的のために、XLM-RとFurinaという2つの異なる事前訓練された言語モデルに対して、異なるソース言語選択戦略に焦点を当てる。 実験する 1) 類型的類似性に基づく単一ソース転送と選択ソース言語 2 最寄りの2つのソース言語による英語のトレーニングデータの拡大、及び 3) マルチソース・トランスファーでは、同じ家庭の言語に対して、すべてのトレーニング言語を選択します。 さらに、機械翻訳に基づくデータ拡張と、スクリプトの違いの影響について研究する。 私たちの提出は、C8テストセット(Kinyarwanda)で1位を獲得しました。

This paper presents our system developed for the SemEval-2024 Task 1: Semantic Textual Relatedness (STR), on Track C: Cross-lingual. The task aims to detect semantic relatedness of two sentences in a given target language without access to direct supervision (i.e. zero-shot cross-lingual transfer). To this end, we focus on different source language selection strategies on two different pre-trained languages models: XLM-R and Furina. We experiment with 1) single-source transfer and select source languages based on typological similarity, 2) augmenting English training data with the two nearest-neighbor source languages, and 3) multi-source transfer where we compare selecting on all training languages against languages from the same family. We further study machine translation-based data augmentation and the impact of script differences. Our submission achieved the first place in the C8 (Kinyarwanda) test set.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# グラフストリーム分類のための概念ドリフト検出とプロトタイプベース埋め込みによるインクリメンタルラーニング

Incremental Learning with Concept Drift Detection and Prototype-based Embeddings for Graph Stream Classification ( http://arxiv.org/abs/2404.02572v1 )

ライセンス: Link先を確認
Kleanthis Malialis, Jin Li, Christos G. Panayiotou, Marios M. Polycarpou, (参考訳) データストリームマイニングは、継続的な進化を続けるデータストリームから有意義な知識を抽出することを目的としており、非定常環境、特に、基礎となるデータ分散の変化を示す概念ドリフトによって引き起こされる課題に対処することを目的としている。 グラフ構造は、重要なインフラストラクチャシステムやソーシャルネットワークなど、複雑なシステムを表現する強力なモデリングツールを提供する。 グラフストリームから学ぶことは、グラフ構造のダイナミクスを理解し、情報的な意思決定を容易にするために必要となる。 本研究では、データ生成プロセスが時間とともに異なるノードとエッジを持つグラフを生成する、一般的な設定の下で機能するグラフストリーム分類の新しい手法を提案する。 この方法は、連続モデル適応のための漸進的な学習、各クラスの代表グラフ(プロトタイプ)の選択、グラフの埋め込みを作成する。 さらに、ドリフト検出時にグラフプロトタイプを再計算するロスベースのコンセプトドリフト検出機構も組み込まれている。

Data stream mining aims at extracting meaningful knowledge from continually evolving data streams, addressing the challenges posed by nonstationary environments, particularly, concept drift which refers to a change in the underlying data distribution over time. Graph structures offer a powerful modelling tool to represent complex systems, such as, critical infrastructure systems and social networks. Learning from graph streams becomes a necessity to understand the dynamics of graph structures and to facilitate informed decision-making. This work introduces a novel method for graph stream classification which operates under the general setting where a data generating process produces graphs with varying nodes and edges over time. The method uses incremental learning for continual model adaptation, selecting representative graphs (prototypes) for each class, and creating graph embeddings. Additionally, it incorporates a loss-based concept drift detection mechanism to recalculate graph prototypes when drift is detected.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# 画像超解像における先行成分の多粒度混合による知識蒸留

Knowledge Distillation with Multi-granularity Mixture of Priors for Image Super-Resolution ( http://arxiv.org/abs/2404.02573v1 )

ライセンス: Link先を確認
Simiao Li, Yun Zhang, Wei Li, Hanting Chen, Wenjia Wang, Bingyi Jing, Shaohui Lin, Jie Hu, (参考訳) 知識蒸留(KD)は、リッチな学習表現を優れた性能を持つ教師モデルからコンパクトな学生モデルに伝達する、有望だが挑戦的なモデル圧縮技術である。 以前の画像超解法(SR)は、主に次元の標準化後の特徴写像と基本的な代数演算(例えば、平均、ドット積)を直接比較する。 しかし、特徴写像の固有の意味的差異は、ネットワーク間の異なる表現能力によって引き起こされるため、見過ごされてしまう。 本研究では,従来のKDフレームワークの多粒度混合であるMiPKDを提案する。 大規模実験により提案手法の有効性が示された。

Knowledge distillation (KD) is a promising yet challenging model compression technique that transfers rich learning representations from a well-performing but cumbersome teacher model to a compact student model. Previous methods for image super-resolution (SR) mostly compare the feature maps directly or after standardizing the dimensions with basic algebraic operations (e.g. average, dot-product). However, the intrinsic semantic differences among feature maps are overlooked, which are caused by the disparate expressive capacity between the networks. This work presents MiPKD, a multi-granularity mixture of prior KD framework, to facilitate efficient SR model through the feature mixture in a unified latent space and stochastic network block mixture. Extensive experiments demonstrate the effectiveness of the proposed MiPKD method.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# コンパイラとしての言語モデル: 擬似コード実行のシミュレーションは言語モデルにおけるアルゴリズム推論を改善する

Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models ( http://arxiv.org/abs/2404.02575v1 )

ライセンス: Link先を確認
Hyungjoo Chae, Yeonghyeon Kim, Seungone Kim, Kai Tzu-iunn Ong, Beong-woo Kwak, Moohyeon Kim, Seonghwan Kim, Taeyoon Kwon, Jiwan Chung, Youngjae Yu, Jinyoung Yeo, (参考訳) アルゴリズム推論(英: Algorithmic reasoning)とは、問題の裏にある複雑なパターンを理解し、それらを一連の推論ステップに分解する能力である。 このようなアルゴリズム推論の性質は、他の推論タスクにおいて有望な性能を示したにもかかわらず、大きな言語モデル(LLM)にとって困難である。 この文脈の中では、いくつかの最近の研究では、厳密で正確な構文にインスパイアされた、与えられたインスタンス/問い合わせ(例えば、Program-of-Thought)を解決するために必要なロジックを表現するために、プログラミング言語(例えば、Python)を使用している。 しかし、単一の推論呼び出しの中で、オンザフライで正しいロジックを表現する実行可能なコードを書くのは簡単ではない。 また、インスタンス用に特別に生成されたコードは、同じタスク出身で、解決するために同じロジックを必要とする場合であっても、他の人のために再利用することはできない。 本稿では,言語モデルの推論過程を2段階に分解する新しいフレームワークであるThink-and-Executeを提案する。 1) 与えられたタスクを解決するために,すべてのインスタンス間で共有されるタスクレベルのロジックを発見し,そのロジックを擬似コードで表現する; (2) 実行時には,生成された擬似コードを各インスタンスにさらに調整し,コードの実行をシミュレートする。 7つのアルゴリズム的推論タスクについて広範な実験を行い、思考と実行の有効性を実証する。 提案手法は,インスタンス固有の推論(例えば,CoT,PoT)を実行するいくつかの強いベースラインと比較して,LMの推論を改良し,タスクレベルの論理の発見に有用であることを示す。 また、自然言語と比較して、擬似コードは、自然言語の指示に従うように訓練されているにもかかわらず、LMの推論をより良く導くことができることを示す。

Algorithmic reasoning refers to the ability to understand the complex patterns behind the problem and decompose them into a sequence of reasoning steps towards the solution. Such nature of algorithmic reasoning makes it a challenge for large language models (LLMs), even though they have demonstrated promising performance in other reasoning tasks. Within this context, some recent studies use programming languages (e.g., Python) to express the necessary logic for solving a given instance/question (e.g., Program-of-Thought) as inspired by their strict and precise syntaxes. However, it is non-trivial to write an executable code that expresses the correct logic on the fly within a single inference call. Also, the code generated specifically for an instance cannot be reused for others, even if they are from the same task and might require identical logic to solve. This paper presents Think-and-Execute, a novel framework that decomposes the reasoning process of language models into two steps. (1) In Think, we discover a task-level logic that is shared across all instances for solving a given task and then express the logic with pseudocode; (2) In Execute, we further tailor the generated pseudocode to each instance and simulate the execution of the code. With extensive experiments on seven algorithmic reasoning tasks, we demonstrate the effectiveness of Think-and-Execute. Our approach better improves LMs' reasoning compared to several strong baselines performing instance-specific reasoning (e.g., CoT and PoT), suggesting the helpfulness of discovering task-level logic. Also, we show that compared to natural language, pseudocode can better guide the reasoning of LMs, even though they are trained to follow natural language instructions.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# カリキュラム学習とリワード工学を用いた近似政策最適化を用いた実世界の最適化問題の解法

Solving a Real-World Optimization Problem Using Proximal Policy Optimization with Curriculum Learning and Reward Engineering ( http://arxiv.org/abs/2404.02577v1 )

ライセンス: Link先を確認
Abhijeet Pendyala, Asma Atamna, Tobias Glasmachers, (参考訳) 実世界の高スループット廃棄物処理施設を最適化するために,カリキュラム学習(CL)の原則と巧妙な報奨工学によって訓練されたPPOエージェントを提案する。 我々の研究は、運用上の安全性、ボリューム最適化、リソース使用量の最小化という競合する目標を効果的にバランスさせることの課題に対処する。 これらの複数の基準でスクラッチから訓練されたバニラエージェントは、その固有の複雑さのため、この問題を解決できない。 この問題は、長期の地平線と階級(または行動)の不均衡を伴う環境の極めて遅れた報酬のため、特に困難であり、重要な行動は最適政策ではまれである。 これにより、エージェントは長期的な行動の結果を予測し、稀だが報奨的な行動の優先順位付けを迫られ、非自明な強化学習タスクが作成される。 当社の5段階CLアプローチは,報酬機構を改良しながら,政策移行時の環境力学の複雑さを徐々に増大させることにより,これらの課題に対処する。 この反復的かつ適応的なプロセスにより、エージェントは望ましい最適なポリシーを学ぶことができる。 提案手法は, プラントの処理効率の向上に加えて, 推定時間の安全性を著しく向上し, ほぼゼロに近い安全性違反を達成できることを実証した。

We present a proximal policy optimization (PPO) agent trained through curriculum learning (CL) principles and meticulous reward engineering to optimize a real-world high-throughput waste sorting facility. Our work addresses the challenge of effectively balancing the competing objectives of operational safety, volume optimization, and minimizing resource usage. A vanilla agent trained from scratch on these multiple criteria fails to solve the problem due to its inherent complexities. This problem is particularly difficult due to the environment's extremely delayed rewards with long time horizons and class (or action) imbalance, with important actions being infrequent in the optimal policy. This forces the agent to anticipate long-term action consequences and prioritize rare but rewarding behaviours, creating a non-trivial reinforcement learning task. Our five-stage CL approach tackles these challenges by gradually increasing the complexity of the environmental dynamics during policy transfer while simultaneously refining the reward mechanism. This iterative and adaptable process enables the agent to learn a desired optimal policy. Results demonstrate that our approach significantly improves inference-time safety, achieving near-zero safety violations in addition to enhancing waste sorting plant efficiency.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# タスクを実行する代替の方法を学ぶ

Learning Alternative Ways of Performing a Task ( http://arxiv.org/abs/2404.02579v1 )

ライセンス: Link先を確認
David Nieves, María José Ramírez-Quintana, Carlos Monserrat, César Ferri, José Hernández-Orallo, (参考訳) タスクを実行するための一般的な学習方法は、それが専門家によってどのように実行されるかを観察することである。 しかし、ほとんどのタスクでは、それらを実行するユニークな方法が存在しないことはよく知られている。 なぜなら、スキルや専門家のノウハウといった要因が、タスクの解決方法に影響を及ぼす可能性があるからです。 さらに、専門家からの学習は、いくつかの専門家(専門家は通常、限られたリソースであり、高価なリソースである)から得られる、少数のトレーニング例を持つことに苦しむ(すなわち、タスクの実行を成功させる例)。 従来の機械学習技術は、広範なトレーニングデータを必要とするため、そのようなシナリオでは役に立たない。 アクティビティシーケンスとして提示されるタスクの実行をごくわずかから始めると、複数のモデルを学習するための新しい帰納的アプローチを導入し、それぞれがタスクを実行する代替戦略を表す。 一般化と特殊化に基づく反復的なプロセスにより、例によって示されるタスクの実行の異なるスタイルをキャプチャする基礎となるパターンを学習する。 本稿では,外科的スキルトレーニングタスクと調理領域の2つの共通活動認識タスクについて述べる。 モデルが例をどれだけうまく表現しているかを測る2つの指標について推定モデルを評価し、例によって示されるタスクの実行の異なる形態をキャプチャする。 結果と従来のプロセスマイニング手法を比較して,タスクの解決に追随するさまざまな戦略を捉えたパターンを得るには,いくつかの意味のある例が十分であることを示す。

A common way of learning to perform a task is to observe how it is carried out by experts. However, it is well known that for most tasks there is no unique way to perform them. This is especially noticeable the more complex the task is because factors such as the skill or the know-how of the expert may well affect the way she solves the task. In addition, learning from experts also suffers of having a small set of training examples generally coming from several experts (since experts are usually a limited and expensive resource), being all of them positive examples (i.e. examples that represent successful executions of the task). Traditional machine learning techniques are not useful in such scenarios, as they require extensive training data. Starting from very few executions of the task presented as activity sequences, we introduce a novel inductive approach for learning multiple models, with each one representing an alternative strategy of performing a task. By an iterative process based on generalisation and specialisation, we learn the underlying patterns that capture the different styles of performing a task exhibited by the examples. We illustrate our approach on two common activity recognition tasks: a surgical skills training task and a cooking domain. We evaluate the inferred models with respect to two metrics that measure how well the models represent the examples and capture the different forms of executing a task showed by the examples. We compare our results with the traditional process mining approach and show that a small set of meaningful examples is enough to obtain patterns that capture the different strategies that are followed to solve the tasks.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# 精密農業における効率的なアノテーションのための能動的学習--雑草セマンティックセグメンテーションを事例として

Active learning for efficient annotation in precision agriculture: a use-case on crop-weed semantic segmentation ( http://arxiv.org/abs/2404.02580v1 )

ライセンス: Link先を確認
Bart M. van Marrewijk, Charbel Dandjinou, Dan Jeric Arcega Rustia, Nicolas Franco Gonzalez, Boubacar Diallo, Jérôme Dias, Paul Melki, Pieter M. Blok, (参考訳) ディープラーニングモデルを最適化するには、大量の注釈付きイメージが必要です。 セマンティックセグメンテーションモデルでは、各ピクセルに注釈を付けなければならない。 アノテーションの取り組みを緩和するための潜在的戦略は、アクティブラーニングである。 アクティブラーニングは、大きな未ラベルプールから最も情報性の高い画像の識別と選択を容易にする。 根底にある前提は、これらの選択された画像は、ランダムな選択よりも高速にモデルの性能を改善し、アノテーションの労力を減らすことである。 アクティブな学習は、Cityscapesのようなベンチマークデータセットで有望な結果を示しているが、農業領域におけるパフォーマンスは、まだ明らかにされていない。 本研究では,ベイジアン能動的学習(BALD),確率型BALD(PowerBALD),ランダム(Random)の3つの能動的学習に基づく獲得機能の比較を行った。 取得機能は、SugarbeetとCorn-Weedの2つの農業データセットでテストされ、どちらも背景、作物、雑草の3つの意味クラスを含む。 その結果、アクティブな学習、特にPowerBALDは、両方のデータセットのランダムサンプリングよりも高いパフォーマンスが得られることがわかった。 しかし、比較的大きな標準偏差のため、観察された差は最小限であり、これは部分的には画像の冗長性と不均衡なクラスによって引き起こされた。 具体的には、99%以上のピクセルが両方のデータセットの背景クラスに属していた。 両データセットに有意な結果がないことは、特に高レベルの不均衡と冗長な画像を含む場合、農業データセットにアクティブな学習を適用するためにさらなる研究が必要であることを示唆している。 本論文では,このような問題を潜在的に解決するために,勧告と洞察を提供する。

Optimizing deep learning models requires large amounts of annotated images, a process that is both time-intensive and costly. Especially for semantic segmentation models in which every pixel must be annotated. A potential strategy to mitigate annotation effort is active learning. Active learning facilitates the identification and selection of the most informative images from a large unlabelled pool. The underlying premise is that these selected images can improve the model's performance faster than random selection to reduce annotation effort. While active learning has demonstrated promising results on benchmark datasets like Cityscapes, its performance in the agricultural domain remains largely unexplored. This study addresses this research gap by conducting a comparative study of three active learning-based acquisition functions: Bayesian Active Learning by Disagreement (BALD), stochastic-based BALD (PowerBALD), and Random. The acquisition functions were tested on two agricultural datasets: Sugarbeet and Corn-Weed, both containing three semantic classes: background, crop and weed. Our results indicated that active learning, especially PowerBALD, yields a higher performance than Random sampling on both datasets. But due to the relatively large standard deviations, the differences observed were minimal; this was partly caused by high image redundancy and imbalanced classes. Specifically, more than 89\% of the pixels belonged to the background class on both datasets. The absence of significant results on both datasets indicates that further research is required for applying active learning on agricultural datasets, especially if they contain a high-class imbalance and redundant images. Recommendations and insights are provided in this paper to potentially resolve such issues.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# マルチグラニュラ性誘導核融合デコーダ

Multi-Granularity Guided Fusion-in-Decoder ( http://arxiv.org/abs/2404.02581v1 )

ライセンス: Link先を確認
Eunseong Choi, Hyeri Lee, Jongwuk Lee, (参考訳) オープンドメイン質問回答(ODQA)では、関連するコンテキストを証拠として識別し、検索された結果のうち刺激的なものを避けることが不可欠である。 復号フェーズにおける複数のコンテクスト、すなわちFusion-in-Decoderを使用するモデルアーキテクチャは、有望な性能を示すが、可視性のあるコンテキストから誤った出力を生成する。 この問題に対処するために,複数レベルの粒度にまたがるエビデンスを識別するMulti-Granularity Guided Fusion-in-Decoder (MGFiD)を提案する。 MGFiDは、マルチタスク学習に基づいて、文分類でランク付けされた経路を調和させる。 明確な文をアンカーベクトルに集約し、デコーダを指示する。 さらに、通過プルーニングにおいて再ランク付けされた通過結果の再利用により復号効率を向上させる。 実験を通じて、MGFiDはNatural Questions(NQ)およびTriviaQA(TQA)データセットの既存のモデルよりも優れており、そのマルチグラニュラリティソリューションの利点を強調している。

In Open-domain Question Answering (ODQA), it is essential to discern relevant contexts as evidence and avoid spurious ones among retrieved results. The model architecture that uses concatenated multiple contexts in the decoding phase, i.e., Fusion-in-Decoder, demonstrates promising performance but generates incorrect outputs from seemingly plausible contexts. To address this problem, we propose the Multi-Granularity guided Fusion-in-Decoder (MGFiD), discerning evidence across multiple levels of granularity. Based on multi-task learning, MGFiD harmonizes passage re-ranking with sentence classification. It aggregates evident sentences into an anchor vector that instructs the decoder. Additionally, it improves decoding efficiency by reusing the results of passage re-ranking for passage pruning. Through our experiments, MGFiD outperforms existing models on the Natural Questions (NQ) and TriviaQA (TQA) datasets, highlighting the benefits of its multi-granularity solution.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# 変圧器を用いた大規模多段階確率最適化のための段階分解

Transformer-based Stagewise Decomposition for Large-Scale Multistage Stochastic Optimization ( http://arxiv.org/abs/2404.02583v1 )

ライセンス: Link先を確認
Chanyeong Kim, Jongwoong Park, Hyunglip Bae, Woo Chang Kim, (参考訳) 大規模マルチステージ確率計画 (MSP) 問題の解法は、確率的双対動的計画法 (SDDP) や、サブプロブレムサイズや問題数の増加など、一般的に用いられる段階分解アルゴリズムとして重要な課題である。 伝統的なアプローチでは、値関数を部分線型凸関数として近似し、段階的部分プロブレムの原始および双対解から次々に下向きの切断平面を蓄積する。 これらの制約を認識し,新しいトランスフォーマーに基づく段階分解アルゴリズムであるTranSDDPを導入する。 この革新的なアプローチはTransformerモデルの構造的利点を活用し、値関数を近似するために下位の切断平面を統合するシーケンシャルな手法を実装している。 数値実験により,MSP問題に対するTranSDDPの有効性が確認された。 値関数のピースワイズ線形近似を効率よく生成し、解品質を維持しながら計算時間を著しく短縮し、大規模多段階確率計画問題の処理における有望な進展を示す。

Solving large-scale multistage stochastic programming (MSP) problems poses a significant challenge as commonly used stagewise decomposition algorithms, including stochastic dual dynamic programming (SDDP), face growing time complexity as the subproblem size and problem count increase. Traditional approaches approximate the value functions as piecewise linear convex functions by incrementally accumulating subgradient cutting planes from the primal and dual solutions of stagewise subproblems. Recognizing these limitations, we introduce TranSDDP, a novel Transformer-based stagewise decomposition algorithm. This innovative approach leverages the structural advantages of the Transformer model, implementing a sequential method for integrating subgradient cutting planes to approximate the value function. Through our numerical experiments, we affirm TranSDDP's effectiveness in addressing MSP problems. It efficiently generates a piecewise linear approximation for the value function, significantly reducing computation time while preserving solution quality, thus marking a promising progression in the treatment of large-scale multistage stochastic programming problems.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# 変形を模擬したアンセグメント

Unsegment Anything by Simulating Deformation ( http://arxiv.org/abs/2404.02585v1 )

ライセンス: Link先を確認
Jiahao Lu, Xingyi Yang, Xinchao Wang, (参考訳) ファンデーションセグメンテーションモデルは強力だが、大きなリスクが伴う。ユーザーはデジタルコンテンツからあらゆるオブジェクトをワンクリックで取り出すことができ、著作権侵害や悪意ある誤用につながる可能性がある。 このリスクを軽減するために,我々は,任意のイメージを「非隔離権」として付与する,新たなタスク "Anything Unsegmentable" を導入する。 このタスクの野心的な追求は、モデルパラメータ化やプロンプトに関わらず、すべてのプロンプトベースのセグメンテーションモデルに対する高度に伝達可能な敵攻撃を達成することである。 本稿では,非伝達性および不均一性を有する突発性対向雑音について述べる。 本手法は, 画像エンコーダの特徴を破壊し, 即時攻撃を実現することに焦点を当てる。 興味深いことに、ターゲットとなる特徴攻撃は、未ターゲットの攻撃よりも優れた伝達性を示し、最適な更新方向が画像多様体に一致していることを示唆している。 本研究は, シミュレーション変形(UAD)によるアンセグメント・アニーシング(Unsegment Anything)と呼ばれる新たな攻撃を設計した。 我々の攻撃は、可変変形関数を最適化し、対象の変形した画像を生成し、これは、達成可能な特徴距離を敵の例で保存しながら、構造情報を変化させる。 広範囲にわたる実験により,提案手法の有効性が検証され,異なるアーキテクチャとプロンプトインタフェースを備えた,様々なプロンプト可能なセグメンテーションモデルが実現された。 コードについてはhttps://github.com/jiahaolu97/anything-unsegmentable.comで公開しています。

Foundation segmentation models, while powerful, pose a significant risk: they enable users to effortlessly extract any objects from any digital content with a single click, potentially leading to copyright infringement or malicious misuse. To mitigate this risk, we introduce a new task "Anything Unsegmentable" to grant any image "the right to be unsegmented". The ambitious pursuit of the task is to achieve highly transferable adversarial attacks against all prompt-based segmentation models, regardless of model parameterizations and prompts. We highlight the non-transferable and heterogeneous nature of prompt-specific adversarial noises. Our approach focuses on disrupting image encoder features to achieve prompt-agnostic attacks. Intriguingly, targeted feature attacks exhibit better transferability compared to untargeted ones, suggesting the optimal update direction aligns with the image manifold. Based on the observations, we design a novel attack named Unsegment Anything by Simulating Deformation (UAD). Our attack optimizes a differentiable deformation function to create a target deformed image, which alters structural information while preserving achievable feature distance by adversarial example. Extensive experiments verify the effectiveness of our approach, compromising a variety of promptable segmentation models with different architectures and prompt interfaces. We release the code at https://github.com/jiahaolu97/anything-unsegmentable.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# 拡張クエリでトレーニングしたランサーのサプライズ効果

The Surprising Effectiveness of Rankers Trained on Expanded Queries ( http://arxiv.org/abs/2404.02587v1 )

ライセンス: Link先を確認
Abhijit Anand, Venktesh V, Vinay Setty, Avishek Anand, (参考訳) テキストグレードシステムにおける重要な問題は、クエリ分布のテールエンドを形成するハードクエリを扱うことである。 この困難は、一般的でない、不明確でない、あるいは不完全なクエリの存在によって生じる可能性がある。 本研究では,他のクエリのパフォーマンスを損なうことなく,難しいクエリや難しいクエリのランク付け性能を向上させる。 まず、関連する文書を用いてクエリをトレーニングするためのLLMベースのクエリ強化を行う。 次に、特殊なランク付けは、元のクエリではなく、リッチなハードクエリのみに微調整される。 我々は,各クエリに対して推定されるクエリ性能スコアとともに,特殊ランク付け器と基本ランク付け器の関連性スコアを組み合わせる。 我々のアプローチは、通常、全てのクエリに対して単一のローダを使用する既存の方法から外れており、クエリの分散の大部分を形成する、簡単なクエリに偏っている。 DL-Hardデータセットに関する広範な実験では,基本クエリを用いた照会性能に基づくスコアリング手法が,通訳ランキングタスクでは最大25%,文書ランキングタスクでは最大48.4%向上し,SOTAモデルよりも優れた照会性能が得られた。

An important problem in text-ranking systems is handling the hard queries that form the tail end of the query distribution. The difficulty may arise due to the presence of uncommon, underspecified, or incomplete queries. In this work, we improve the ranking performance of hard or difficult queries without compromising the performance of other queries. Firstly, we do LLM based query enrichment for training queries using relevant documents. Next, a specialized ranker is fine-tuned only on the enriched hard queries instead of the original queries. We combine the relevance scores from the specialized ranker and the base ranker, along with a query performance score estimated for each query. Our approach departs from existing methods that usually employ a single ranker for all queries, which is biased towards easy queries, which form the majority of the query distribution. In our extensive experiments on the DL-Hard dataset, we find that a principled query performance based scoring method using base and specialized ranker offers a significant improvement of up to 25% on the passage ranking task and up to 48.4% on the document ranking task when compared to the baseline performance of using original queries, even outperforming SOTA model.
翻訳日:2024-04-04 18:00:28 公開日:2024-04-03
# 音声言語理解システムの新しい言語への拡張のための大規模言語モデル

Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages ( http://arxiv.org/abs/2404.02588v1 )

ライセンス: Link先を確認
Jakub Hoscilowicz, Pawel Pawlowski, Marcin Skorupa, Marcin Sowański, Artur Janicki, (参考訳) Spoken Language Understanding(SLU)モデルは、Alexa、Bixby、Google Assistantなどの音声アシスタント(VA)のコアコンポーネントである。 本稿では,スロットアノテートされたSLU学習データの機械翻訳にLarge Language Models (LLMs) を用いて,SLUシステムを新しい言語に拡張するパイプラインを提案する。 当社のアプローチは,mBERTモデルを用いたクラウドシナリオにおいて,主要なマルチ言語SLUデータセットであるMultiATIS++ベンチマークを改善した。 具体的には、既存の最先端手法であるファイン・アンド・粗粒なマルチタスク学習フレームワーク(FC-MTLF)と比較して、53%から62.18%に改善した。 デバイス上でのシナリオ(未学習のSLU)では,Global-Local Contrastive Learning Framework(GL-CLeF)法よりも5.31%から22.06%に向上した。 FC-MTLF と GL-CLeF とは対照的に,LLM をベースとした機械翻訳では,SLU の生産アーキテクチャの変更は不要である。 さらに、私たちのパイプラインはスロットタイプの独立性があり、スロット定義や例は一切必要ありません。

Spoken Language Understanding (SLU) models are a core component of voice assistants (VA), such as Alexa, Bixby, and Google Assistant. In this paper, we introduce a pipeline designed to extend SLU systems to new languages, utilizing Large Language Models (LLMs) that we fine-tune for machine translation of slot-annotated SLU training data. Our approach improved on the MultiATIS++ benchmark, a primary multi-language SLU dataset, in the cloud scenario using an mBERT model. Specifically, we saw an improvement in the Overall Accuracy metric: from 53% to 62.18%, compared to the existing state-of-the-art method, Fine and Coarse-grained Multi-Task Learning Framework (FC-MTLF). In the on-device scenario (tiny and not pretrained SLU), our method improved the Overall Accuracy from 5.31% to 22.06% over the baseline Global-Local Contrastive Learning Framework (GL-CLeF) method. Contrary to both FC-MTLF and GL-CLeF, our LLM-based machine translation does not require changes in the production architecture of SLU. Additionally, our pipeline is slot-type independent: it does not require any slot definitions or examples.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# Affective-NLI:会話における個人性認識の精度と解釈に向けて

Affective-NLI: Towards Accurate and Interpretable Personality Recognition in Conversation ( http://arxiv.org/abs/2404.02589v1 )

ライセンス: Link先を確認
Zhiyuan Wen, Jiannong Cao, Yu Yang, Ruosong Yang, Shuaiqi Liu, (参考訳) 会話におけるパーソナリティ認識(PRC)は、テキスト対話コンテンツを通して話者の性格特性を識別することを目的としている。 人間-コンピュータインタラクション(HCI)の様々な応用にパーソナライズされたサービスを提供するためには、AIベースのメンタルセラピーや高齢者向けのロボットと連携することが不可欠である。 最近の研究は、人格分類のためのダイアログの内容を分析するが、その性能を阻害する2つの主要な懸念を見落としている。 まず、話者の個性を反映した感情など、会話に含まれる重要な暗黙的要因を無視する。 第二に、入力ダイアログの内容にのみ注目することは、人格自体の意味的理解を無視し、その結果の解釈可能性を減らす。 本稿では,正確かつ解釈可能なPRCのためのAffective Natural Language Inference (Affective-NLI)を提案する。 対話内容中の感情を正確な人格認識に活用するために,会話中の感情認識に特化した事前学習言語モデルを微調整し,発話に対するリアルタイム感情アノテーションを容易にする。 認識結果の解釈性について,人格ラベルのテキスト記述が対話内容に関連付けられているかどうかを判定することにより,NLI問題として人格認識を定式化する。 2つの日々の会話データセットに対する大規模な実験は、Affective-NLIが最先端のアプローチで(6%-7%)著しく優れていたことを示唆している。 さらに,Affective-NLIは22%~34%の最先端手法を超越することで,会話の初期段階における話者の性格を正確に認識できることを示す。

Personality Recognition in Conversation (PRC) aims to identify the personality traits of speakers through textual dialogue content. It is essential for providing personalized services in various applications of Human-Computer Interaction (HCI), such as AI-based mental therapy and companion robots for the elderly. Most recent studies analyze the dialog content for personality classification yet overlook two major concerns that hinder their performance. First, crucial implicit factors contained in conversation, such as emotions that reflect the speakers' personalities are ignored. Second, only focusing on the input dialog content disregards the semantic understanding of personality itself, which reduces the interpretability of the results. In this paper, we propose Affective Natural Language Inference (Affective-NLI) for accurate and interpretable PRC. To utilize affectivity within dialog content for accurate personality recognition, we fine-tuned a pre-trained language model specifically for emotion recognition in conversations, facilitating real-time affective annotations for utterances. For interpretability of recognition results, we formulate personality recognition as an NLI problem by determining whether the textual description of personality labels is entailed by the dialog content. Extensive experiments on two daily conversation datasets suggest that Affective-NLI significantly outperforms (by 6%-7%) state-of-the-art approaches. Additionally, our Flow experiment demonstrates that Affective-NLI can accurately recognize the speaker's personality in the early stages of conversations by surpassing state-of-the-art methods with 22%-34%.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# 適応サンプリング法--ホットストーブ効果の一般化

Adaptive Sampling Policies Imply Biased Beliefs: A Generalization of the Hot Stove Effect ( http://arxiv.org/abs/2404.02591v1 )

ライセンス: Link先を確認
Jerker Denrell, (参考訳) ホットストーブ効果(Hot Stove Effect)は、学習の適応性から生じる負性バイアスである。 そのメカニズムは、肯定的な推定値を持つ代替品を追求するが、負の推定値を持つ代替品を避ける学習アルゴリズムが過大評価の誤りを正すが、過小評価の誤りを正さないことである。 ここで、ホットストーブ効果の背景にある理論を、負の見積もりが必ずしも回避に繋がるのではなく、より小さいサンプルサイズに導く設定に一般化する。 我々は、この設定の中に負性バイアスが残っていることを正式に証明する。 また,ベイズ学習者には,ほとんどの学習者が期待する代替案の価値を過小評価しているという意味で,負性バイアスがあることも示している。

The Hot Stove Effect is a negativity bias resulting from the adaptive character of learning. The mechanism is that learning algorithms that pursue alternatives with positive estimated values, but avoid alternatives with negative estimated values, will correct errors of overestimation but fail to correct errors of underestimation. Here, we generalize the theory behind the Hot Stove Effect to settings in which negative estimates do not necessarily lead to avoidance but to a smaller sample size (i.e., a learner selects fewer of alternative B if B is believed to be inferior but does not entirely avoid B). We formally demonstrate that the negativity bias remains in this set-up. We also show there is a negativity bias for Bayesian learners in the sense that most such learners underestimate the expected value of an alternative.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# シンタクティックキューと音響キューの相互作用を利用した韓国TTSパウス生成の最適化

Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation ( http://arxiv.org/abs/2404.02592v1 )

ライセンス: Link先を確認
Yejin Jeon, Yunsu Kim, Gary Geunbae Lee, (参考訳) 現代のニューラル音声合成モデルは、人間の生成した音声に匹敵する品質に達しているため、合成音声生成において顕著な熟練性を示している。 しかしながら、これらの成果は、英語などの高リソース言語の文脈において、主に検証されていることに留意する必要がある。 さらに、TacotronとFastSpeechの変種は、音声知覚と自然性に影響を与える韓国語に適用した場合、かなりの誤りを示す。 上記の課題に対処するため,我々は,舗装パターンに関連する構文的および音響的手がかりの包括的モデリングを取り入れた新しい枠組みを提案する。 注目に値することに、我々のフレームワークは、短い音声クリップで訓練されているにもかかわらず、かなり拡張され複雑なドメイン外文(OOD)でも、自然言語を連続的に生成する能力を持っている。 設計上の選択は、ベースラインモデルとの比較と主観的および客観的な指標を用いたアブレーション研究により検証され、モデル性能が確認される。

Contemporary neural speech synthesis models have indeed demonstrated remarkable proficiency in synthetic speech generation as they have attained a level of quality comparable to that of human-produced speech. Nevertheless, it is important to note that these achievements have predominantly been verified within the context of high-resource languages such as English. Furthermore, the Tacotron and FastSpeech variants show substantial pausing errors when applied to the Korean language, which affects speech perception and naturalness. In order to address the aforementioned issues, we propose a novel framework that incorporates comprehensive modeling of both syntactic and acoustic cues that are associated with pausing patterns. Remarkably, our framework possesses the capability to consistently generate natural speech even for considerably more extended and intricate out-of-domain (OOD) sentences, despite its training on short audio clips. Architectural design choices are validated through comparisons with baseline models and ablation studies using subjective and objective metrics, thus confirming model performance.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# QFNN-FFD:ファイナンシャルフラッド検出のための量子フェデレーションニューラルネットワーク

QFNN-FFD: Quantum Federated Neural Network for Financial Fraud Detection ( http://arxiv.org/abs/2404.02595v1 )

ライセンス: Link先を確認
Nouhaila Innan, Alberto Marchisio, Muhammad Shafique, Mohamed Bennai, (参考訳) 本研究では、QFNN-FFD(Quantum Federated Neural Network for Financial Fraud Detection)、QML(Quantum Machine Learning)とFL(Federated Learning)を融合した最先端フレームワークについて紹介する。 量子技術の計算能力とFLのデータプライバシーを用いて、QFNN-FFDは不正取引を識別するためのセキュアで効率的な方法を示す。 分散クライアント間でのデュアルフェーズトレーニングモデルの実装は、パフォーマンス上の既存のメソッドを超越します。 QFNN-FFDは不正検出を大幅に改善し、データの機密性を確保し、フィンテックソリューションの大幅な進歩と、プライバシにフォーカスした不正検出の新しい標準を確立する。

This study introduces the Quantum Federated Neural Network for Financial Fraud Detection (QFNN-FFD), a cutting-edge framework merging Quantum Machine Learning (QML) and quantum computing with Federated Learning (FL) to innovate financial fraud detection. Using quantum technologies' computational power and FL's data privacy, QFNN-FFD presents a secure, efficient method for identifying fraudulent transactions. Implementing a dual-phase training model across distributed clients surpasses existing methods in performance. QFNN-FFD significantly improves fraud detection and ensures data confidentiality, marking a significant advancement in fintech solutions and establishing a new standard for privacy-focused fraud detection.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# 自動走行システムの効率的なテストのためのシナリオの戦術的挑戦の決定

Determining the Tactical Challenge of Scenarios to Efficiently Test Automated Driving Systems ( http://arxiv.org/abs/2404.02599v1 )

ライセンス: Link先を確認
Lennart Vater, Sven Tarlowski, Lutz Eckstein, (参考訳) 自動走行システム(ADS)のシナリオベーステストと安全性検証に関するテストシナリオの選択は依然として困難である。 シナリオの関連性の重要な側面は、ADSにとっての課題である。 シナリオの課題を計算するための既存の方法は、メートル法値の観点で課題を表現することを目的としている。 メトリック値は、最小または最も困難なシナリオを選択するのに有用である。 しかし、関連するテストシナリオの効率的な選択のための重要な情報である、課題の原因に関する人間解釈可能な情報の提供には失敗している。 そこで本稿では,シナリオを分析し,必要車線変更の最小化と難易度の観点からそれらの課題を説明することによって,この問題を緩和する課題記述法を提案する。 異なるハイウェイシナリオにメソッドを適用することで、複雑なシナリオを分析し、関連するテストシナリオを選択するために使用可能な、理解しやすい説明を提供することができることを示した。

The selection of relevant test scenarios for the scenario-based testing and safety validation of automated driving systems (ADSs) remains challenging. An important aspect of the relevance of a scenario is the challenge it poses for an ADS. Existing methods for calculating the challenge of a scenario aim to express the challenge in terms of a metric value. Metric values are useful to select the least or most challenging scenario. However, they fail to provide human-interpretable information on the cause of the challenge which is critical information for the efficient selection of relevant test scenarios. Therefore, this paper presents the Challenge Description Method that mitigates this issue by analyzing scenarios and providing a description of their challenge in terms of the minimum required lane changes and their difficulty. Applying the method to different highway scenarios showed that it is capable of analyzing complex scenarios and providing easy-to-understand descriptions that can be used to select relevant test scenarios.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# LightFAt:軽量PMUを用いた制御フロー試験による制御フロー爆発の軽減

LightFAt: Mitigating Control-flow Explosion via Lightweight PMU-based Control-flow Attestation ( http://arxiv.org/abs/2404.02608v1 )

ライセンス: Link先を確認
Jeferson Gonzalez-Gomez, Hassan Nassar, Lars Bauer, Jorg Henkel, (参考訳) 計算機器の継続的な進化により、ますます多くのアプリケーションがリモートで実行されるようになった。 アプリケーションは、計算能力の低いIoTノードから、高機能な大規模クラウドプロバイダまで、幅広いデバイスで動作する。 リモート実行はしばしば機密データを扱うか、プロプライエタリなソフトウェアを実行する。 したがって、コード実行が妥協されないことを保証するという課題が持ち上がります。 リモートテストはこの課題に対処します。 暗号化ハッシュ値の潜在的に大きなシーケンスを計算することで、コードが非コンパイル環境で実行されることを保証する。 各ハッシュ計算は計算集約的であり、大きなシーケンスでオーバーヘッドは非常に高い。 本稿では,軽量制御フロー検証方式LightFAtを提案する。 高価な暗号ハッシュ計算に頼る代わりに、LightFAtは、プロセッサのPerformance Monitor Unit(PMU)と軽量な教師なし機械学習(ML)分類器を併用して、ターゲットアプリケーションの制御フローが損なわれているかどうかを検知し、システムのセキュリティを改善している。 検証者の側では、LightFAtは95%以上の検出精度に達し、偽陰性率と偽陽性率が低い。

With the continuous evolution of computational devices, more and more applications are being executed remotely. The applications operate on a wide spectrum of devices, ranging from IoT nodes with low computational capabilities to large cloud providers with high capabilities. Remote execution often deals with sensitive data or executes proprietary software. Hence, the challenge of ensuring that the code execution will not be compromised rises. Remote Attestation deals with this challenge. It ensures the code is executed in a non-compromised environment by calculating a potentially large sequence of cryptographic hash values. Each hash calculation is computationally intensive and over a large sequence the overhead becomes extremely high. In this work, we propose LightFAt: a Lightweight Control Flow Attestation scheme. Instead of relying on the expensive cryptographic hash calculation, LightFAt leverages the readings from the processor's Performance Monitor Unit (PMU) in conjunction with a lightweight unsupervised machine learning (ML) classifier to detect whether a target application's control flow is compromised, hence improving the system's security. On the verifier's side, LightFAt reaches a detection accuracy of over 95%, with low false-negative and false-positive rates.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# ShiELD:eXplainable Artificial Intelligenceの正規化技術

SHIELD: A regularization technique for eXplainable Artificial Intelligence ( http://arxiv.org/abs/2404.02611v1 )

ライセンス: Link先を確認
Iván Sevillano-García, Julián Luengo, Francisco Herrera, (参考訳) 人工知能システムがドメイン間で統合されるにつれて、説明可能性への需要が増大する。 科学的コミュニティの努力は、モデルに対するより良い説明を得ることに重点を置いているが、この説明プロセスの可能性を無視してトレーニングを改善することも重要である。 既存の取り組みは主にブラックボックスモデルの説明の生成と評価に重点を置いているが、これらの評価を通じてモデルを直接強化する上では重要なギャップが残っている。 本稿では、入力データの一部を隠蔽し、予測における結果の不一致を評価することによって、モデル品質を改善するための説明可能な人工知能の正規化手法であるShiELD(Selective Hidden Input Evaluation for Learning Dynamics)を紹介する。 従来の手法とは対照的に、ShielD正規化は目的関数にシームレスに統合され、モデル説明性を高め、性能も向上する。 ベンチマークデータセットの実験的検証は、人工知能モデルの説明可能性と全体的なパフォーマンスの改善におけるShiELDの有効性を裏付けるものだ。 これは、透明で信頼性の高い人工知能正規化技術を開発するための有望な経路としてShiELD正規化を確立する。

As Artificial Intelligence systems become integral across domains, the demand for explainability grows. While the effort by the scientific community is focused on obtaining a better explanation for the model, it is important not to ignore the potential of this explanation process to improve training as well. While existing efforts primarily focus on generating and evaluating explanations for black-box models, there remains a critical gap in directly enhancing models through these evaluations. This paper introduces SHIELD (Selective Hidden Input Evaluation for Learning Dynamics), a regularization technique for explainable artificial intelligence designed to improve model quality by concealing portions of input data and assessing the resulting discrepancy in predictions. In contrast to conventional approaches, SHIELD regularization seamlessly integrates into the objective function, enhancing model explainability while also improving performance. Experimental validation on benchmark datasets underscores SHIELD's effectiveness in improving Artificial Intelligence model explainability and overall performance. This establishes SHIELD regularization as a promising pathway for developing transparent and reliable Artificial Intelligence regularization techniques.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# 経時的MRIからの経時的神経磁場による前庭神経根腫成長の予測

Vestibular schwannoma growth_prediction from longitudinal MRI by time conditioned neural fields ( http://arxiv.org/abs/2404.02614v1 )

ライセンス: Link先を確認
Yunjie Chen, Jelmer M. Wolterink, Olaf M. Neve, Stephan R. Romeijn, Berit M. Verbist, Erik F. Hensen, Qian Tao, Marius Staring, (参考訳) 前庭神経腫瘍 (VS) は良性腫瘍であり, 一般的にはMRI検査による能動的監視によって管理される。 臨床的な意思決定を補助し、過剰治療を避けるために、縦断的画像に基づく腫瘍増殖の正確な予測が極めて望ましい。 本稿では,ニューラルフィールドとリカレントニューラルネットワークを組み込んだ深層学習手法であるDeepGrowthを紹介する。 提案手法では,各腫瘍は低次元潜伏符号に条件付き符号付き距離関数(SDF)として表現される。 画像空間で腫瘍の形状を直接予測する従来の研究とは異なり、我々はその代わりに潜伏符号を予測し、将来の形状を再構成する。 本研究では,不規則な時間間隔を扱うために,ConvLSTMと新しい時間的符号化戦略に基づく時間条件リカレントモジュールを導入する。 社内の縦断的VSデータセットを用いた実験の結果,提案したモデルでは,最も大きく成長または縮小した上位20倍の腫瘍に対して,Diceスコア(\ge 1.6\%,Hausdorff距離)が有意に改善した($\ge 0.73$ mm 95\%,Husdorff距離)。 私たちのコードは ~\burl{https://github.com/cyjdswx/DeepGrowth} で利用可能です。

Vestibular schwannomas (VS) are benign tumors that are generally managed by active surveillance with MRI examination. To further assist clinical decision-making and avoid overtreatment, an accurate prediction of tumor growth based on longitudinal imaging is highly desirable. In this paper, we introduce DeepGrowth, a deep learning method that incorporates neural fields and recurrent neural networks for prospective tumor growth prediction. In the proposed method, each tumor is represented as a signed distance function (SDF) conditioned on a low-dimensional latent code. Unlike previous studies that perform tumor shape prediction directly in the image space, we predict the latent codes instead and then reconstruct future shapes from it. To deal with irregular time intervals, we introduce a time-conditioned recurrent module based on a ConvLSTM and a novel temporal encoding strategy, which enables the proposed model to output varying tumor shapes over time. The experiments on an in-house longitudinal VS dataset showed that the proposed model significantly improved the performance ($\ge 1.6\%$ Dice score and $\ge0.20$ mm 95\% Hausdorff distance), in particular for top 20\% tumors that grow or shrink the most ($\ge 4.6\%$ Dice score and $\ge 0.73$ mm 95\% Hausdorff distance). Our code is available at ~\burl{https://github.com/cyjdswx/DeepGrowth}
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# 混合構造要約とLLMデータ拡張による話題関連モデルの改善

Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation ( http://arxiv.org/abs/2404.02616v1 )

ライセンス: Link先を確認
Yizhu Liu, Ran Tao, Shengyu Guo, Yifan Yang, (参考訳) クエリとドキュメント間のトピック関連性は、ドキュメントとユーザの要求とのマッチングの度合いを評価することのできる、ソーシャル検索の非常に重要な部分である。 Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。 ひとつは、ソーシャル検索における多くのドキュメントは非常に長く、冗長な情報を持っていることだ。 もうひとつは、検索関連モデルのトレーニングデータは、特にマルチクラス化関連モデルの取得が困難である点である。 以上の2つの問題に対処するために、まず、クエリに基づく要約と、クエリを含まない要約とをトピック関連モデルの入力として取り、クエリとドキュメントの中核トピックとの関連度をモデルが学習するのに役立つ。 そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリとドキュメントからのクエリを書き換え,生成し,新たなクエリとドキュメントのペアをトレーニングデータとして構築する。 大規模なオフライン実験とオンラインA/Bテストにより,提案手法は妥当性モデリングの性能を効果的に向上することを示した。

Topic relevance between query and document is a very important part of social search, which can evaluate the degree of matching between document and user's requirement. In most social search scenarios such as Dianping, modeling search relevance always faces two challenges. One is that many documents in social search are very long and have much redundant information. The other is that the training data for search relevance model is difficult to get, especially for multi-classification relevance model. To tackle above two problems, we first take query concatenated with the query-based summary and the document summary without query as the input of topic relevance model, which can help model learn the relevance degree between query and the core topic of document. Then, we utilize the language understanding and generation abilities of large language model (LLM) to rewrite and generate query from queries and documents in existing training data, which can construct new query-document pairs as training data. Extensive offline experiments and online A/B tests show that the proposed approaches effectively improve the performance of relevance modeling.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# トーチユニットを用いたニューラルラジアンス場

Neural Radiance Fields with Torch Units ( http://arxiv.org/abs/2404.02617v1 )

ライセンス: Link先を確認
Bingnan Ni, Huanyu Wang, Dongfeng Bai, Minghe Weng, Dexin Qi, Weichao Qiu, Bingbing Liu, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、産業用途で広く使われている学習に基づく3D再構成手法を生み出す。 一般的な手法は小規模なシーンで大幅に改善されるが、複雑で大規模なシーンでの再構築はいまだに困難である。 まず、複雑な場面の背景には、異なる視点で大きな違いが見られる。 第二に、現在の推論パターンである$i.e.$は、ピクセルは個々のカメラ光線のみに依存し、コンテキスト情報のキャプチャに失敗する。 これらの問題を解決するために、光知覚場を拡大し、サンプルポイントの相互作用を構築することを提案する。 本稿では,よりコンテキスト情報を持つ単一カメラ光線を奨励する新しい推論パターンを設計し,各カメラ光線上のサンプル点間の関係をモデル化する。 コンテクスト情報を保持するため,提案手法のカメラ線は画素のパッチを同時に描画することができる。 さらに,ニューラルレージアンス場モデルにおけるMLPを距離認識畳み込みに置き換えて,同じカメラ線からのサンプル点間の特徴伝搬を向上させる。 トーチライトとして,画像のパッチを描画する手法を提案する。 そこで,提案手法をTorch-NeRFと呼ぶ。 KITTI-360とLLFFの大規模な実験により、Torch-NeRFは優れた性能を示した。

Neural Radiance Fields (NeRF) give rise to learning-based 3D reconstruction methods widely used in industrial applications. Although prevalent methods achieve considerable improvements in small-scale scenes, accomplishing reconstruction in complex and large-scale scenes is still challenging. First, the background in complex scenes shows a large variance among different views. Second, the current inference pattern, $i.e.$, a pixel only relies on an individual camera ray, fails to capture contextual information. To solve these problems, we propose to enlarge the ray perception field and build up the sample points interactions. In this paper, we design a novel inference pattern that encourages a single camera ray possessing more contextual information, and models the relationship among sample points on each camera ray. To hold contextual information,a camera ray in our proposed method can render a patch of pixels simultaneously. Moreover, we replace the MLP in neural radiance field models with distance-aware convolutions to enhance the feature propagation among sample points from the same camera ray. To summarize, as a torchlight, a ray in our proposed method achieves rendering a patch of image. Thus, we call the proposed method, Torch-NeRF. Extensive experiments on KITTI-360 and LLFF show that the Torch-NeRF exhibits excellent performance.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# DiffExplainer:拡散モデルを用いたクロスモーダルグローバルな説明を目指して

Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models ( http://arxiv.org/abs/2404.02618v1 )

ライセンス: Link先を確認
Matteo Pennisi, Giovanni Bellitto, Simone Palazzo, Mubarak Shah, Concetto Spampinato, (参考訳) 言語ビジョンモデルを活用する新しいフレームワークであるDiffExplainerを提案する。 DiffExplainerは、最適化されたテキストプロンプトに条件付けされた拡散モデルを採用し、クラス出力と分類器の隠れた特徴を最大化する画像の合成を行い、意思決定を説明するビジュアルツールを提供する。 さらに、生成した視覚的記述の分析により、しばしば手作業による介入に依存する従来の手法とは対照的に、バイアスや刺激的な特徴の自動識別が可能になる。 言語ビジョンモデルのクロスモーダルトランスファービリティはまた、テキストを通じてより人間的に解釈可能な方法で決定を記述することが可能である。 DiffExplainerの有効性を実証する広範なユーザスタディを含む包括的実験を実施している。 1)モデル決定、既存のアクティベーション最大化手法を超越した高品質な画像の生成 2)偏見と突発的特徴の自動識別。

We present DiffExplainer, a novel framework that, leveraging language-vision models, enables multimodal global explainability. DiffExplainer employs diffusion models conditioned on optimized text prompts, synthesizing images that maximize class outputs and hidden features of a classifier, thus providing a visual tool for explaining decisions. Moreover, the analysis of generated visual descriptions allows for automatic identification of biases and spurious features, as opposed to traditional methods that often rely on manual intervention. The cross-modal transferability of language-vision models also enables the possibility to describe decisions in a more human-interpretable way, i.e., through text. We conduct comprehensive experiments, which include an extensive user study, demonstrating the effectiveness of DiffExplainer on 1) the generation of high-quality images explaining model decisions, surpassing existing activation maximization methods, and 2) the automated identification of biases and spurious features.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# 人間の判断による埋め込み空間における解釈次元の調整

Adjusting Interpretable Dimensions in Embedding Space with Human Judgments ( http://arxiv.org/abs/2404.02619v1 )

ライセンス: Link先を確認
Katrin Erk, Marianna Apidianaki, (参考訳) 埋め込み空間は、性別、スタイルの形式性、さらにはオブジェクトの性質を示す解釈可能な次元を含む。 これは何回も観測されている。 このような解釈可能な次元は、社会科学から神経科学まで、さまざまな分野の研究において貴重な道具になりつつある。 これらの次元を計算する標準的な方法は、シードワードの対比を使い、それらの上の差分ベクトルを計算する。 これは単純だが、必ずしもうまくいかない。 我々は、種に基づくベクトルと、単語が特定の次元に沿って落ちる場所の人間の評価からのガイダンスを組み合わせるとともに、サイズや危険といったオブジェクト特性と、形式性や複雑さの様式的特性の両方を予測することを評価する。 特に種子ベースの寸法がうまく機能しない場合には, 極めて優れた性能を有する解釈可能な次元が得られる。

Embedding spaces contain interpretable dimensions indicating gender, formality in style, or even object properties. This has been observed multiple times. Such interpretable dimensions are becoming valuable tools in different areas of study, from social science to neuroscience. The standard way to compute these dimensions uses contrasting seed words and computes difference vectors over them. This is simple but does not always work well. We combine seed-based vectors with guidance from human ratings of where words fall along a specific dimension, and evaluate on predicting both object properties like size and danger, and the stylistic properties of formality and complexity. We obtain interpretable dimensions with markedly better performance especially in cases where seed-based dimensions do not work well.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# 多項グラフラッソ:ガウス図形信号からエッジを学習する

Polynomial Graphical Lasso: Learning Edges from Gaussian Graph-Stationary Signals ( http://arxiv.org/abs/2404.02621v1 )

ライセンス: Link先を確認
Andrei Buciulea, Jiaxi Ying, Antonio G. Marques, Daniel P. Palomar, (参考訳) 本稿では,Nudal信号からグラフ構造を学習する新しい手法であるPolynomial Graphical Lasso (PGL)を紹介する。 我々の重要な貢献は、グラフ上のガウス的および定常的な信号のモデリングであり、グラフィカルラッソの強みとより包括的なモデルを組み合わせたグラフ学習式の開発を可能にする。 具体的には、精度行列が探索グラフの任意の多項式形式を取ることができ、結節関係のモデリングにおける柔軟性を高めることができると仮定する。 結果の複雑性と結果の最適化問題の非凸性を考えると、我々はそうする。 (i)グラフと精度行列の推定を交互に行う低複雑さアルゴリズムを提案し、 (ii)収束を特徴付ける。 合成データと実データの両方を用いて包括的数値シミュレーションによりPGLの性能を評価する。 全体として、このアプローチはグラフ学習の大幅な進歩を示し、グラフ対応信号解析などにおける様々な応用を約束する。

This paper introduces Polynomial Graphical Lasso (PGL), a new approach to learning graph structures from nodal signals. Our key contribution lies in modeling the signals as Gaussian and stationary on the graph, enabling the development of a graph-learning formulation that combines the strengths of graphical lasso with a more encompassing model. Specifically, we assume that the precision matrix can take any polynomial form of the sought graph, allowing for increased flexibility in modeling nodal relationships. Given the resulting complexity and nonconvexity of the resulting optimization problem, we (i) propose a low-complexity algorithm that alternates between estimating the graph and precision matrices, and (ii) characterize its convergence. We evaluate the performance of PGL through comprehensive numerical simulations using both synthetic and real data, demonstrating its superiority over several alternatives. Overall, this approach presents a significant advancement in graph learning and holds promise for various applications in graph-aware signal analysis and beyond.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# 変圧器を用いたNLIモデルにおける自然論理的特徴の因果効果の推定

Estimating the Causal Effects of Natural Logic Features in Transformer-Based NLI Models ( http://arxiv.org/abs/2404.02622v1 )

ライセンス: Link先を確認
Julia Rozanova, Marco Valentino, André Freitas, (参考訳) 言語モデル予測における意味的特徴の因果的影響の厳密な評価は、自然言語推論問題において達成し難い。 しかし、これは解釈可能性とモデル評価の観点からの望ましい分析形態であり、広く使われているモデルにおける体系的推論失敗を識別し定量化するのに十分な構造と規則性を持つ推論の特定のパターンを調べることが重要である。 本稿では、2つの文(前提と仮説)にまたがって2つの関連する単語/項が共有された文脈で発生する場合において、明示的な因果図を体系的に構築できるNLIタスクの一部を選択する。 本研究では、文脈介入(エンターメントラベルに対する効果が意味的単調性特性によって媒介される)と挿入語ペアに対する介入(エンターメントラベルに対する効果がこれらの単語の関係によって媒介される)の効果を測定するために因果効果推定戦略を適用した。 異なる環境下でのNLPモデルの因果解析に関する関連研究を拡張し,非関係な変化に対するロバスト性,およびトランスフォーマーの衝撃的な変化に対する感受性について検討するため,NLIタスクに対する広範な介入研究を行った。 結果は、非常に異なる振る舞いを示すモデルに対して、類似のベンチマーク精度スコアが観測されるという事実を強く支持する。 さらに,本手法は,上向き単調な文脈を優先するバイアスや否定マーカーの効果を無視するバイアスなど,因果的視点から疑わしい偏見を補強する。

Rigorous evaluation of the causal effects of semantic features on language model predictions can be hard to achieve for natural language reasoning problems. However, this is such a desirable form of analysis from both an interpretability and model evaluation perspective, that it is valuable to investigate specific patterns of reasoning with enough structure and regularity to identify and quantify systematic reasoning failures in widely-used models. In this vein, we pick a portion of the NLI task for which an explicit causal diagram can be systematically constructed: the case where across two sentences (the premise and hypothesis), two related words/terms occur in a shared context. In this work, we apply causal effect estimation strategies to measure the effect of context interventions (whose effect on the entailment label is mediated by the semantic monotonicity characteristic) and interventions on the inserted word-pair (whose effect on the entailment label is mediated by the relation between these words). Extending related work on causal analysis of NLP models in different settings, we perform an extensive interventional study on the NLI task to investigate robustness to irrelevant changes and sensitivity to impactful changes of Transformers. The results strongly bolster the fact that similar benchmark accuracy scores may be observed for models that exhibit very different behaviour. Moreover, our methodology reinforces previously suspected biases from a causal perspective, including biases in favour of upward-monotone contexts and ignoring the effects of negation markers.
翻訳日:2024-04-04 17:50:35 公開日:2024-04-03
# 骨格に基づく行動認識のためのマルチスケール空間的自己注意グラフ畳み込みネットワーク

Multi-Scale Spatial-Temporal Self-Attention Graph Convolutional Networks for Skeleton-based Action Recognition ( http://arxiv.org/abs/2404.02624v1 )

ライセンス: Link先を確認
Ikuo Nakamura, (参考訳) スケルトンをベースとしたジェスチャー認識手法は、GCN(Graph Convolutional Network)を用いて高い成功を収めている。 さらに、近隣の頂点情報および注意機構としての文脈依存適応トポロジは、アクションをより良く表現するためにモデルを活用する。 本稿では,マルチスケール空間時間自己注意(Multi-Scale Spatial-Temporal Self-attention, MST)-GCNを用いた自己注意型GCNハイブリッドモデルを提案する。 適応トポロジを持つ空間自己保持モジュールを用いて、異なる身体部分間のフレーム内相互作用を理解するとともに、時間的自己保持モジュールを用いてノードのフレーム間の相関関係を調べる。 これらの2つは、拡張を伴うマルチスケールの畳み込みネットワークに続き、関節の長距離時間依存性だけでなく、ノードの時間的挙動の長距離空間依存性(長距離時間依存性)もキャプチャする。 それらは高レベルな時空間表現に結合され、予測された動作をソフトマックス分類器で出力する。

Skeleton-based gesture recognition methods have achieved high success using Graph Convolutional Network (GCN). In addition, context-dependent adaptive topology as a neighborhood vertex information and attention mechanism leverages a model to better represent actions. In this paper, we propose self-attention GCN hybrid model, Multi-Scale Spatial-Temporal self-attention (MSST)-GCN to effectively improve modeling ability to achieve state-of-the-art results on several datasets. We utilize spatial self-attention module with adaptive topology to understand intra-frame interactions within a frame among different body parts, and temporal self-attention module to examine correlations between frames of a node. These two are followed by multi-scale convolution network with dilations, which not only captures the long-range temporal dependencies of joints but also the long-range spatial dependencies (i.e., long-distance dependencies) of node temporal behaviors. They are combined into high-level spatial-temporal representations and output the predicted action with the softmax classifier.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 説明に基づく自然言語推論のための微分型整数線形計画法

A Differentiable Integer Linear Programming Solver for Explanation-Based Natural Language Inference ( http://arxiv.org/abs/2404.02625v1 )

ライセンス: Link先を確認
Mokanarangan Thayaparan, Marco Valentino, André Freitas, (参考訳) Integer Linear Programming (ILP) は、自然言語推論(NLI)の正確な構造的および意味的制約を符号化する形式として提案されている。 しかし、従来のILPフレームワークは差別化不可能であり、ディープラーニングに基づいた継続的言語表現の統合において重要な課題を提起している。 本稿では,Diff-Comb Explainerという新しいアプローチを導入する。これは,差分式BlackBox Combinatorial Solvers(DBCS)に基づく,説明に基づくNLIのためのニューラルシンボリックアーキテクチャである。 既存のニューロシンボリックな解法とは異なり、Diff-Comb Explainerは意味的制約の連続的な緩和を必要とせず、直接的でより正確で効率的な神経表現をILPの定式化に組み込むことができる。 Diff-Comb Explainer は従来の ILP ソルバ, ニューロシンボリックブラックボックスソルバ, トランスフォーマーベースのエンコーダと比較して優れた性能を示した。 さらに、より深い分析により、Diff-Comb Explainerは、構築された説明の正確性、一貫性、忠実性を著しく改善し、複雑なドメインにおける説明可能かつ透明なNLIのためのニューロシンボリックアーキテクチャの研究の新たな機会を開くことができることが明らかになった。

Integer Linear Programming (ILP) has been proposed as a formalism for encoding precise structural and semantic constraints for Natural Language Inference (NLI). However, traditional ILP frameworks are non-differentiable, posing critical challenges for the integration of continuous language representations based on deep learning. In this paper, we introduce a novel approach, named Diff-Comb Explainer, a neuro-symbolic architecture for explanation-based NLI based on Differentiable BlackBox Combinatorial Solvers (DBCS). Differently from existing neuro-symbolic solvers, Diff-Comb Explainer does not necessitate a continuous relaxation of the semantic constraints, enabling a direct, more precise, and efficient incorporation of neural representations into the ILP formulation. Our experiments demonstrate that Diff-Comb Explainer achieves superior performance when compared to conventional ILP solvers, neuro-symbolic black-box solvers, and Transformer-based encoders. Moreover, a deeper analysis reveals that Diff-Comb Explainer can significantly improve the precision, consistency, and faithfulness of the constructed explanations, opening new opportunities for research on neuro-symbolic architectures for explainable and transparent NLI in complex domains.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# エフェクタ: 地域説明のためのPythonパッケージ

Effector: A Python package for regional explanations ( http://arxiv.org/abs/2404.02629v1 )

ライセンス: Link先を確認
Vasilis Gkolemis, Christos Diou, Eirini Ntoutsi, Theodore Dalamagas, Bernd Bischl, Julia Herbinger, Giuseppe Casalicchio, (参考訳) グローバルな特徴効果法は、1つの特徴に対して1つのプロットを出力するモデルを説明する。 このプロットは、年収に対する年齢の影響のように、その特徴の出力に対する平均的な影響を示している。 しかし、平均的な効果は、不均一な局所的な効果、すなわち平均から著しく逸脱した場合に誤解を招く可能性がある。 不均一性を減らすために、地域効果は特徴ごとに複数のプロットを提供し、それぞれが特定の部分空間内の平均効果を表す。 解釈可能性について、サブスペースは、男女別々に年収に及ぼす年齢の影響や、異なるレベルの専門的経験など、論理的な規則の連鎖によって定義される超長方形として定義される。 地域機能エフェクトに特化したPythonライブラリであるEffectorを紹介します。 エフェクターは、確立されたグローバルエフェクト手法を実装し、各手法の不均一性を評価し、それに基づいて地域効果を提供する。 エフェクターは、局所的な効果が不均一性を減少させる部分空間を自動的に検出する。 すべてのグローバルなエフェクトメソッドと地域的なエフェクトメソッドは共通のAPIを共有し、それらの比較を容易にする。 さらに、ライブラリのインターフェイスは拡張可能であるので、新しいメソッドを容易に追加し、ベンチマークすることができる。 ライブラリは徹底的にテストされ、多くのチュートリアル(https://xai-effector.github.io/)が提供され、PyPi (https://pypi.org/project/effector/)とGithub (https://github.com/givasile/effector)でオープンソースライセンスで提供されている。

Global feature effect methods explain a model outputting one plot per feature. The plot shows the average effect of the feature on the output, like the effect of age on the annual income. However, average effects may be misleading when derived from local effects that are heterogeneous, i.e., they significantly deviate from the average. To decrease the heterogeneity, regional effects provide multiple plots per feature, each representing the average effect within a specific subspace. For interpretability, subspaces are defined as hyperrectangles defined by a chain of logical rules, like age's effect on annual income separately for males and females and different levels of professional experience. We introduce Effector, a Python library dedicated to regional feature effects. Effector implements well-established global effect methods, assesses the heterogeneity of each method and, based on that, provides regional effects. Effector automatically detects subspaces where regional effects have reduced heterogeneity. All global and regional effect methods share a common API, facilitating comparisons between them. Moreover, the library's interface is extensible so new methods can be easily added and benchmarked. The library has been thoroughly tested, ships with many tutorials (https://xai-effector.github.io/) and is available under an open-source license at PyPi (https://pypi.org/project/effector/) and Github (https://github.com/givasile/effector).
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# スクリーニングスカラー場による動的カシミール効果

Dynamical Casimir effect with screened scalar fields ( http://arxiv.org/abs/2404.02630v1 )

ライセンス: Link先を確認
Ana Lucía Báez-Camargo, Daniel Hartley, Christian Käding, Ivette Fuentes-Guridi, (参考訳) ダークエネルギーとダークマターの性質を理解することは、現代の物理学における最大のオープンな問題の一つである。 カメレオンモデルのようなスクリーニングされたスカラー場を持つスカラーテンソル理論は最も一般的な解である。 本稿では,カメレオン場がキャビティにおける境界周期運動の共振条件に伴う粒子生成を主な特徴とする動的カシミール効果に与える影響を初めて解析する。 そこで我々は,時間依存型ボゴリューボフ変換を用いて,大域的双曲時空における量子スカラー場の発展を計算する手法を最近開発した。 その結果,カメレオン場の存在により粒子生成が減少することが示唆された。 さらに, ボゴリューボフ係数と生成粒子の平均数は, カメレオン場が存在しない場合に, 既知の結果と一致した。 この結果から,スカラー場背景の量子場の進化に関する議論が始まった。

Understanding the nature of dark energy and dark matter is one of modern physics' greatest open problems. Scalar-tensor theories with screened scalar fields like the chameleon model are among the most popular proposed solutions. In this article, we present the first analysis of the impact of a chameleon field on the dynamical Casimir effect, whose main feature is the particle production associated with a resonant condition of boundary periodic motion in cavities. For this, we employ a recently developed method to compute the evolution of confined quantum scalar fields in a globally hyperbolic spacetime by means of time-dependent Bogoliubov transformations. As a result, we show that particle production is reduced due to the presence of the chameleon field. In addition, our results for the Bogoliubov coefficients and the mean number of created particles agree with known results in the absence of a chameleon field. Our results initiate the discussion of the evolution of quantum fields on screened scalar field backgrounds.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 3DStyleGLIP: テキストガイドによる3Dニューラルスティル化

3DStyleGLIP: Part-Tailored Text-Guided 3D Neural Stylization ( http://arxiv.org/abs/2404.02634v1 )

ライセンス: Link先を確認
SeungJeh Chung, JooHyun Park, Hyewon Kan, HyeongYeop Kang, (参考訳) 3Dスタイル化は、特定のスタイルを3次元オブジェクトに適用することを必要とするが、異なる雰囲気とスタイルを持つ多様な3Dオブジェクトを、異なるシーンの特定の要求に合わせて作成できるため、商業的な大きな可能性を秘めている。 近年のテキスト駆動方式と人工知能の進歩により、スタイリングプロセスは直感的かつ自動化され、手作業や専門知識への依存度が低下する。 しかし、既存の手法は主に全体論的スタイリングに焦点を合わせており、3Dオブジェクトの個々のコンポーネントへのスタイルの適用は未探索のままである。 そこで本研究では,テキスト駆動3Dスタイリングに特化して設計された新しいフレームワークである3DStyleGLIPを紹介する。 3Dメッシュとテキストプロンプトが与えられた3DStyleGLIPは、3Dメッシュの個々の部分をローカライズし、それらの色と局所的なジオメトリを変更して、テキストプロンプトで指定された望ましいスタイルに合わせるために、3Dメッシュの視覚言語埋め込みスペースを利用する。 3DStyleGLIPは、GLIPの埋め込み空間で機能する部分レベルスタイルの損失を2つの補完学習技術で補うことで、3次元スタイリングタスクを効果的に訓練する。 広範囲な実験的検証により,本手法は3次元スタイリゼーションの分野を推し進める上で有望な可能性を実証し,パートワイドなスタイリゼーション機能を実現することが確認された。

3D stylization, which entails the application of specific styles to three-dimensional objects, holds significant commercial potential as it enables the creation of diverse 3D objects with distinct moods and styles, tailored to specific demands of different scenes. With recent advancements in text-driven methods and artificial intelligence, the stylization process is increasingly intuitive and automated, thereby diminishing the reliance on manual labor and expertise. However, existing methods have predominantly focused on holistic stylization, thereby leaving the application of styles to individual components of a 3D object unexplored. In response, we introduce 3DStyleGLIP, a novel framework specifically designed for text-driven, part-tailored 3D stylization. Given a 3D mesh and a text prompt, 3DStyleGLIP leverages the vision-language embedding space of the Grounded Language-Image Pre-training (GLIP) model to localize the individual parts of the 3D mesh and modify their colors and local geometries to align them with the desired styles specified in the text prompt. 3DStyleGLIP is effectively trained for 3D stylization tasks through a part-level style loss working in GLIP's embedding space, supplemented by two complementary learning techniques. Extensive experimental validation confirms that our method achieves significant part-wise stylization capabilities, demonstrating promising potential in advancing the field of 3D stylization.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 語彙攻撃による大規模言語モデルアプリケーションのハイジャック

Vocabulary Attack to Hijack Large Language Model Applications ( http://arxiv.org/abs/2404.02637v1 )

ライセンス: Link先を確認
Patrick Levi, Christoph P. Neumann, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、ますます多くのアプリケーションを動かしている。 ユーザの増加とともに、これらのシステムを圧倒しようとする攻撃者も増えている。 彼らはモデルに機密情報、特定の偽情報、または攻撃的な行動を明らかにすることを望んでいます。 この目的のために、彼らはLLMの指示をセパレータを挿入したり、目標に到達するまで体系的に言い換えることで操作する。 私たちのアプローチは違います。 モデル語彙から単語を挿入する。 それらの単語は、最適化手順と、別のLSM(攻撃者LSM)からの埋め込みを用いて見つける。 Llama2 と Flan-T5 の2つのオープンソース LLM をそれぞれハイジャックすることで,我々のアプローチを実証する。 主な所見は2つである。 まず,本手法は不明瞭な命令を生成するため,検出が困難である。 多くの攻撃の場合、一つの単語を挿入しても十分であることがわかった。 第2に、ターゲットモデルとは異なるモデルを用いて攻撃を実行し、攻撃を行うことを実証する。

The fast advancements in Large Language Models (LLMs) are driving an increasing number of applications. Together with the growing number of users, we also see an increasing number of attackers who try to outsmart these systems. They want the model to reveal confidential information, specific false information, or offensive behavior. To this end, they manipulate their instructions for the LLM by inserting separators or rephrasing them systematically until they reach their goal. Our approach is different. It inserts words from the model vocabulary. We find these words using an optimization procedure and embeddings from another LLM (attacker LLM). We prove our approach by goal hijacking two popular open-source LLMs from the Llama2 and the Flan-T5 families, respectively. We present two main findings. First, our approach creates inconspicuous instructions and therefore it is hard to detect. For many attack cases, we find that even a single word insertion is sufficient. Second, we demonstrate that we can conduct our attack using a different model than the target model to conduct our attack with.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# SG-BEV:衛星誘導型BEVフュージョンによるセマンティックセマンティックセグメンテーション

SG-BEV: Satellite-Guided BEV Fusion for Cross-View Semantic Segmentation ( http://arxiv.org/abs/2404.02638v1 )

ライセンス: Link先を確認
Junyan Ye, Qiyan Luo, Jinhua Yu, Huaping Zhong, Zhimeng Zheng, Conghui He, Weijia Li, (参考訳) 本稿では,衛星画像とストリートビュー画像のペアを用いたクロスビューシナリオにおいて,きめ細かい建物属性のセグメンテーションを実現することを目的とする。 主な課題は、ストリートビューと衛星ビューの間の重要な視点の違いを克服することである。 本研究では,衛星誘導型BEV融合によるクロスビューセマンティックセマンティックセグメンテーションのための新しいアプローチであるSG-BEVを紹介する。 建築ファサードの特徴を捉えた既存のクロスビュー投影手法の限界を克服するため,バードアイビュー(BEV)手法を革新的に取り入れ,空間的に明示的なストリートビュー特徴のマッピングを確立する。 さらに,衛星誘導リジェクションモジュールを導入し,従来のBEV手法に係わる不均一な特徴分布問題を最適化することで,複数の視点の利点を十分に活用する。 提案手法は,ニューヨーク,サンフランシスコ,ボストンなど,複数の都市から収集した4つのクロスビューデータセットに対して,大幅な改善を示す。 これらのデータセットを平均して、我々の手法は、最先端の衛星ベースおよびクロスビュー手法と比較して、mIOUの10.13%、および5.21%の増加を達成する。 この作業のコードとデータセットはhttps://github.com/yejy53/SG-BEVで公開される。

This paper aims at achieving fine-grained building attribute segmentation in a cross-view scenario, i.e., using satellite and street-view image pairs. The main challenge lies in overcoming the significant perspective differences between street views and satellite views. In this work, we introduce SG-BEV, a novel approach for satellite-guided BEV fusion for cross-view semantic segmentation. To overcome the limitations of existing cross-view projection methods in capturing the complete building facade features, we innovatively incorporate Bird's Eye View (BEV) method to establish a spatially explicit mapping of street-view features. Moreover, we fully leverage the advantages of multiple perspectives by introducing a novel satellite-guided reprojection module, optimizing the uneven feature distribution issues associated with traditional BEV methods. Our method demonstrates significant improvements on four cross-view datasets collected from multiple cities, including New York, San Francisco, and Boston. On average across these datasets, our method achieves an increase in mIOU by 10.13% and 5.21% compared with the state-of-the-art satellite-based and cross-view methods. The code and datasets of this work will be released at https://github.com/yejy53/SG-BEV.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 無線通信システムにおける信号検出のためのユニバーサルディープニューラルネットワーク

A Universal Deep Neural Network for Signal Detection in Wireless Communication Systems ( http://arxiv.org/abs/2404.02648v1 )

ライセンス: Link先を確認
Khalid Albagami, Nguyen Van Huynh, Geoffrey Ye Li, (参考訳) 近年,無線通信におけるチャネル推定と信号検出のための有望なアプローチとして,ディープラーニング(DL)が登場している。 この領域におけるDL技術の利用を調査する既存の研究の大部分は、付加的な白色ガウスチャネルノイズやレイリーチャネルのような1つのチャネル分布から発生するチャネルインパルス応答の分析に重点を置いている。 実際には、無線チャネルのダイナミックな性質に対処するために、DL手法はコストがかかり、効率が悪く、実用的でない新しい非老化データで再訓練されなければならない。 この課題に対処するため,本研究では,モデルを再学習することなく,様々な無線環境において高い検出性能を実現することのできる,新しいユニバーサルディープニューラルネットワーク(Uni-DNN)を提案する。 特に,提案するUni-DNNモデルは,DNNを用いて構築した無線チャネル分類器と信号検出器から構成される。 無線チャネル分類器は、信号検出器を一般化し、複数の無線チャネル分布に対して最適に実行することを可能にする。 さらに,提案モデルの信号検出性能をさらに向上するため,畳み込みニューラルネットワークを用いる。 直交周波数分割多重化方式を用いた広範シミュレーションにより,提案手法のビット誤り率性能は,実用的低パイロット密度シナリオにおける最小二乗および最小二乗平均誤差チャネル推定器よりも優れていることを示した。

Recently, deep learning (DL) has been emerging as a promising approach for channel estimation and signal detection in wireless communications. The majority of the existing studies investigating the use of DL techniques in this domain focus on analysing channel impulse responses that are generated from only one channel distribution such as additive white Gaussian channel noise and Rayleigh channels. In practice, to cope with the dynamic nature of the wireless channel, DL methods must be re-trained on newly non-aged collected data which is costly, inefficient, and impractical. To tackle this challenge, this paper proposes a novel universal deep neural network (Uni-DNN) that can achieve high detection performance in various wireless environments without retraining the model. In particular, our proposed Uni-DNN model consists of a wireless channel classifier and a signal detector which are constructed by using DNNs. The wireless channel classifier enables the signal detector to generalise and perform optimally for multiple wireless channel distributions. In addition, to further improve the signal detection performance of the proposed model, convolutional neural network is employed. Extensive simulations using the orthogonal frequency division multiplexing scheme demonstrate that the bit error rate performance of our proposed solution can outperform conventional DL-based approaches as well as least square and minimum mean square error channel estimators in practical low pilot density scenarios.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 大規模言語モデルを用いた意思決定における不確実性の重要性について

On the Importance of Uncertainty in Decision-Making with Large Language Models ( http://arxiv.org/abs/2404.02649v1 )

ライセンス: Link先を確認
Nicolò Felicioni, Lucas Maystre, Sina Ghiassian, Kamil Ciosek, (参考訳) 自然言語を入力とする意思決定問題における不確実性の役割について検討する。 このようなタスクでは、エージェントとしてLarge Language Modelを使用するのが一般的になっている。 しかし、近年のアプローチでは、意思決定作業中にエージェントが世界に対して持つ不確実性を推定するために追加のフェーズは採用されていない。 本稿では,自然言語を入力とする基本的意思決定フレームワークに焦点をあてる。 不確実性推定のないアプローチの代表として、最も予測された最大の報酬に対応するアクションを選択する欲求ポリシーを持つLCMバンディットを考える。 我々はこのベースラインをトンプソンサンプリングポリシーに不確実性を統合することで不確実性推定を積極的に活用するLLMバンドと比較する。 我々は、Laplace Approximation、Dropout、Epinetsなどの不確実性推定に異なる手法を採用する。 我々は、現実のデータに対して、欲求政策がトンプソンサンプリング政策よりも悪いことを実証的に示す。 これらの結果は, LLMの文献で見過ごされているが, LLMのバンドイットタスクにおいて不確実性が基本的な役割を担っていることを示唆している。

We investigate the role of uncertainty in decision-making problems with natural language as input. For such tasks, using Large Language Models as agents has become the norm. However, none of the recent approaches employ any additional phase for estimating the uncertainty the agent has about the world during the decision-making task. We focus on a fundamental decision-making framework with natural language as input, which is the one of contextual bandits, where the context information consists of text. As a representative of the approaches with no uncertainty estimation, we consider an LLM bandit with a greedy policy, which picks the action corresponding to the largest predicted reward. We compare this baseline to LLM bandits that make active use of uncertainty estimation by integrating the uncertainty in a Thompson Sampling policy. We employ different techniques for uncertainty estimation, such as Laplace Approximation, Dropout, and Epinets. We empirically show on real-world data that the greedy policy performs worse than the Thompson Sampling policies. These findings suggest that, while overlooked in the LLM literature, uncertainty plays a fundamental role in bandit tasks with LLMs.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 大規模言語モデルにおける予測外バイアスの検出に向けて

Towards detecting unanticipated bias in Large Language Models ( http://arxiv.org/abs/2404.02650v1 )

ライセンス: Link先を確認
Anna Kruspe, (参考訳) 昨年、ChatGPTのようなLarge Language Models (LLM)が広く利用され、従来の機械学習システムと同様の公平性の問題が報告された。 現在の研究は主に、トレーニングデータにおけるこれらのバイアスの分析と定量化、およびそれらのモデルの決定に対する影響、緩和戦略の開発に重点を置いている。 この研究は主に、性別、人種、民族、言語に関するよく知られた偏見を対象とする。 しかし、LSMが他の暗黙のバイアスの影響を受けていることは明らかである。 これらのモデルの複雑でしばしば不透明な性質は、そのようなバイアスを検出することを困難にしている。 本稿では,不確かさの定量化と説明可能なAI手法に特化して,LLMにおけるこれらの予期せぬバイアスを検出するための新たな道を探る。 これらのアプローチは、モデル決定の確実性を評価し、LCMの内部決定プロセスをより透明にすることを目的としており、即時に明らかでないバイアスを特定し、理解することを目的としている。 本研究は,より公平で透明性の高いAIシステムの開発に貢献することを目的としている。

Over the last year, Large Language Models (LLMs) like ChatGPT have become widely available and have exhibited fairness issues similar to those in previous machine learning systems. Current research is primarily focused on analyzing and quantifying these biases in training data and their impact on the decisions of these models, alongside developing mitigation strategies. This research largely targets well-known biases related to gender, race, ethnicity, and language. However, it is clear that LLMs are also affected by other, less obvious implicit biases. The complex and often opaque nature of these models makes detecting such biases challenging, yet this is crucial due to their potential negative impact in various applications. In this paper, we explore new avenues for detecting these unanticipated biases in LLMs, focusing specifically on Uncertainty Quantification and Explainable AI methods. These approaches aim to assess the certainty of model decisions and to make the internal decision-making processes of LLMs more transparent, thereby identifying and understanding biases that are not immediately apparent. Through this research, we aim to contribute to the development of fairer and more transparent AI systems.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 忠実度を緩和した大規模言語モデルの信頼性の校正

Calibrating the Confidence of Large Language Models by Eliciting Fidelity ( http://arxiv.org/abs/2404.02655v1 )

ライセンス: Link先を確認
Mozhi Zhang, Mianqiu Huang, Rundong Shi, Linsen Guo, Chong Peng, Peng Yan, Yaqian Zhou, Xipeng Qiu, (参考訳) RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。 しかし、アライメント後、これらの言語モデルはしばしば過剰な自信を示し、表現された信頼度はその正確さで正確に校正されない。 本稿では,言語モデルの信頼性を,言語モデルが生成した質問に対する「textit{Uncertainty}」と「textit{Fidelity}」に分解する。 そこで本研究では,言語モデルの信頼性を推定するプラグイン・アンド・プレイ手法を提案する。 4つのMCQAデータセット上で6つのRLHF-LMを用いて実験を行い,良好な校正性能を示した。 さらに,モデルのキャリブレーションを評価するために,IPRとCEという2つの新しい指標を提案する。 我々の手法は強力なベースラインとして機能する可能性があり、この研究がモデルの信頼性校正に関する洞察を与えてくれることを願っている。

Large language models optimized with techniques like RLHF have achieved good alignment in being helpful and harmless. However, post-alignment, these language models often exhibit overconfidence, where the expressed confidence does not accurately calibrate with their correctness rate. In this paper, we decompose the language model confidence into the \textit{Uncertainty} about the question and the \textit{Fidelity} to the answer generated by language models. Then, we propose a plug-and-play method to estimate the confidence of language models. Our method has shown good calibration performance by conducting experiments with 6 RLHF-LMs on four MCQA datasets. Moreover, we propose two novel metrics, IPR and CE, to evaluate the calibration of the model, and we have conducted a detailed discussion on \textit{Truly Well-Calibrated Confidence}. Our method could serve as a strong baseline, and we hope that this work will provide some insights into the model confidence calibration.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 医用画像におけるFew-shot Learningのための非負のサブスペース特徴表現

Non-negative Subspace Feature Representation for Few-shot Learning in Medical Imaging ( http://arxiv.org/abs/2404.02656v1 )

ライセンス: Link先を確認
Keqiang Fan, Xiaohao Cai, Mahesan Niranjan, (参考訳) 大規模なデータセットがディープニューラルネットワークにアクセスできる典型的な視覚的シーン認識ドメインとは異なり、医療画像の解釈は、しばしばデータのあいまいさによって妨げられる。 本稿では,低次元空間におけるデータ属性の異なる表現を探索することにより,医用画像におけるデータに基づく少ショット学習の有効性について検討する。 医用画像分類におけるデータ不足問題に対処するため,NMF (Non- negative matrix factorization) とNMF (Non- negative matrix factorization) を多種に導入した。 NMFの有効性、特にその教師付き変異(例えば、識別的NMF、スパースネスによる教師付きおよび制約付きNMF)の検証、および主成分分析(PCA)との比較、すなわち固有ベクトルから導かれる協調表現に基づく次元減少技術の比較において、広範囲にわたる実証研究が行われた。 11の異なる疾患カテゴリをカバーする14の異なるデータセット、徹底的な実験結果、および関連する技術との比較により、NMFは医療画像における数ショット学習のためのPCAの代替品であり、教師付きNMFアルゴリズムはサブスペースにおいてより差別的であり、より有効であることが示された。 さらに,NMFのパートベース表現,特にその教師付き変異体は,限られた試料を用いた医用画像の病変領域の検出に劇的に影響していることが示唆された。

Unlike typical visual scene recognition domains, in which massive datasets are accessible to deep neural networks, medical image interpretations are often obstructed by the paucity of data. In this paper, we investigate the effectiveness of data-based few-shot learning in medical imaging by exploring different data attribute representations in a low-dimensional space. We introduce different types of non-negative matrix factorization (NMF) in few-shot learning, addressing the data scarcity issue in medical image classification. Extensive empirical studies are conducted in terms of validating the effectiveness of NMF, especially its supervised variants (e.g., discriminative NMF, and supervised and constrained NMF with sparseness), and the comparison with principal component analysis (PCA), i.e., the collaborative representation-based dimensionality reduction technique derived from eigenvectors. With 14 different datasets covering 11 distinct illness categories, thorough experimental results and comparison with related techniques demonstrate that NMF is a competitive alternative to PCA for few-shot learning in medical imaging, and the supervised NMF algorithms are more discriminative in the subspace with greater effectiveness. Furthermore, we show that the part-based representation of NMF, especially its supervised variants, is dramatically impactful in detecting lesion areas in medical imaging with limited samples.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 大規模言語モデルにおける知識蒸留におけるKulback-Leiblerの多様性の再考

Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models ( http://arxiv.org/abs/2404.02657v1 )

ライセンス: Link先を確認
Taiqiang Wu, Chaofan Tao, Jiahao Wang, Zhe Zhao, Ngai Wong, (参考訳) Kullback-Leiber の発散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。 逆のクルバック・リーブラー(英語版)(RKL)の発散はモード探索であり、従って平均探索前方のクルバック・リーブラー(英語版)(FKL)の発散よりも好ましいという以前の主張とは対照的に、本研究では、モード探索および平均探索特性がLLMのKDに現れないことを実証的かつ理論的に示す。 代わりに、RKL と FKL は同じ最適化目標を共有し、どちらも十分な数のエポックの後に収束する。 しかし、実際的な制約のため、LLMはそのような多くのエポックのために訓練されることはめったにない。 一方、RKLは分布の尾部に焦点を当てているのに対し、FKLは最初期の部分に焦点を当てている。 そこで本研究では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。 メトリックベースおよびGPT-4に基づく評価は、提案したAKLが様々なタスクにまたがってベースラインを上回り、生成した応答の多様性と品質を向上させることを示す。

Kullback-Leiber divergence has been widely used in Knowledge Distillation (KD) to compress Large Language Models (LLMs). Contrary to prior assertions that reverse Kullback-Leibler (RKL) divergence is mode-seeking and thus preferable over the mean-seeking forward Kullback-Leibler (FKL) divergence, this study empirically and theoretically demonstrates that neither mode-seeking nor mean-seeking properties manifest in KD for LLMs. Instead, RKL and FKL are found to share the same optimization objective and both converge after a sufficient number of epochs. However, due to practical constraints, LLMs are seldom trained for such an extensive number of epochs. Meanwhile, we further find that RKL focuses on the tail part of the distributions, while FKL focuses on the head part at the beginning epochs. Consequently, we propose a simple yet effective Adaptive Kullback-Leiber (AKL) divergence method, which adaptively allocates weights to combine FKL and RKL. Metric-based and GPT-4-based evaluations demonstrate that the proposed AKL outperforms the baselines across various tasks and improves the diversity and quality of generated responses.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# 局所光シフトを用いたRydberg原子アレイ上の重み付きグラフ最適化の実証

Demonstration of weighted graph optimization on a Rydberg atom array using local light-shifts ( http://arxiv.org/abs/2404.02658v1 )

ライセンス: Link先を確認
A. G. de Oliveira, E. Diamond-Hitchcock, D. M. Walker, M. T. Wells-Pestell, G. Pelegrí, C. J. Picken, G. P. A. Malcolm, A. J. Daley, J. Bass, J. D. Pritchard, (参考訳) 中性原子配列は、スケーラブルな量子計算と最適化のための汎用的なプラットフォームとして登場した。 本稿では,局所光シフトを用いたアニールを用いたRydberg原子配列上での重み付きグラフ最適化の最初の実演を示す。 9つの物理量子ビットを用いて5頂点非単位円板グラフを埋め込み、重み付きグラフを1Dおよび2D配列で作成する能力を検証する。 種々のグラフ重み付けに対して, ターゲット基底状態の調製に寄与する一般的な焼鈍ランプを見出した。 この研究は、関連する現実世界の問題を解決するために、非平面重み付きグラフを大規模に最適化する方法を提供する。

Neutral atom arrays have emerged as a versatile platform towards scalable quantum computation and optimization. In this paper we present first demonstrations of weighted graph optimization on a Rydberg atom array using annealing with local light-shifts. We verify the ability to prepare weighted graphs in 1D and 2D arrays, including embedding a five vertex non-unit disk graph using nine physical qubits. We find common annealing ramps leading to preparation of the target ground state robustly over a substantial range of different graph weightings. This work provides a route to exploring large-scale optimization of non-planar weighted graphs relevant for solving relevant real-world problems.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# Amazon森林森林破壊検知タスクのための衛星バンド選択フレームワーク

A Satellite Band Selection Framework for Amazon Forest Deforestation Detection Task ( http://arxiv.org/abs/2404.02659v1 )

ライセンス: Link先を確認
Eduardo Neto, Fabio A. Faria, Amanda A. S. de Oliveira, Álvaro L. Fazenda, (参考訳) 熱帯林の保全は、地球生態系において重要な役割を担っているため、社会的・生態学的に重要な意味を持つ。 不運なことに、森林破壊と荒廃は年間数百万ヘクタールに影響を及ぼし、効果的な森林モニタリングのために政府や民間のイニシアチブを必要としている。 本研究では,Univariate Marginal Distribution Algorithm (UMDA) を用いてランドサット8衛星からスペクトル帯域を抽出し,森林伐採地の表現を最適化する手法を提案する。 この選択はセマンティックセグメンテーションアーキテクチャであるDeepLabv3+をガイドし、パフォーマンスを向上させる。 実験の結果,SVM(Support Vector Machine)を用いたセグメント分類を用いて,森林破壊検出のための一般的な組み合わせと比較して,バランスの取れた精度が向上したバンド構成がいくつか示された。 さらに,UMDAに基づくアプローチにより同定された最適なバンド構成により,DeepLabv3+アーキテクチャの性能が向上した。 数個の選択されたバンドが総数を上回っているという観察は、深層学習において一般的なデータ駆動パラダイムと矛盾する。 したがって、これは「より良くなる」という従来の知恵の例外を示唆している。

The conservation of tropical forests is a topic of significant social and ecological relevance due to their crucial role in the global ecosystem. Unfortunately, deforestation and degradation impact millions of hectares annually, necessitating government or private initiatives for effective forest monitoring. This study introduces a novel framework that employs the Univariate Marginal Distribution Algorithm (UMDA) to select spectral bands from Landsat-8 satellite, optimizing the representation of deforested areas. This selection guides a semantic segmentation architecture, DeepLabv3+, enhancing its performance. Experimental results revealed several band compositions that achieved superior balanced accuracy compared to commonly adopted combinations for deforestation detection, utilizing segment classification via a Support Vector Machine (SVM). Moreover, the optimal band compositions identified by the UMDA-based approach improved the performance of the DeepLabv3+ architecture, surpassing state-of-the-art approaches compared in this study. The observation that a few selected bands outperform the total contradicts the data-driven paradigm prevalent in the deep learning field. Therefore, this suggests an exception to the conventional wisdom that 'more is always better'.
翻訳日:2024-04-04 17:40:49 公開日:2024-04-03
# テキスト分類器における逆攻撃と次元性

Adversarial Attacks and Dimensionality in Text Classifiers ( http://arxiv.org/abs/2404.02660v1 )

ライセンス: Link先を確認
Nandish Chattopadhyay, Atreya Goswami, Anupam Chattopadhyay, (参考訳) 機械学習アルゴリズムに対する敵対的な攻撃は、多くの現実世界のユースケースにおいて、AIの採用を妨げている。 それらは、誤分類を強制することによって、高性能ニューラルネットワークの能力を著しく損なう。 これらの攻撃は、試験サンプルに微小で構造的な摂動や変化を導入し、一般にヒトのアノテータには受け入れられないが、訓練されたニューラルネットワークやその他のモデルはそれに敏感である。 歴史的に、敵対的攻撃は画像処理の領域で最初に特定され研究されている。 本稿では,自然言語処理分野,特にテキスト分類タスクにおける逆例について検討する。 本稿では,特にモデル固有の次元性に関して,敵対的脆弱性の原因について検討する。 我々の重要な発見は、対向サンプルの埋め込み次元と、同じ埋め込み次元の入力サンプルに調整されたモデルにおけるそれらの有効性との間に非常に強い相関関係があることである。 我々はこの感度を利用して敵防衛機構を設計する。 攻撃を阻止するために、さまざまな固有の次元のアンサンブルモデルを使用します。 これは、堅牢性を提供するための有効性のために、複数のデータセットでテストされる。 また,異なる距離の計測値を用いて逆方向の摂動を測定する問題についても検討した。 上記の研究のすべてに対して、様々な次元を持つ複数のモデルでテストを行い、単語ベクトルレベルの逆攻撃を用いてその知見を裏付ける。

Adversarial attacks on machine learning algorithms have been a key deterrent to the adoption of AI in many real-world use cases. They significantly undermine the ability of high-performance neural networks by forcing misclassifications. These attacks introduce minute and structured perturbations or alterations in the test samples, imperceptible to human annotators in general, but trained neural networks and other models are sensitive to it. Historically, adversarial attacks have been first identified and studied in the domain of image processing. In this paper, we study adversarial examples in the field of natural language processing, specifically text classification tasks. We investigate the reasons for adversarial vulnerability, particularly in relation to the inherent dimensionality of the model. Our key finding is that there is a very strong correlation between the embedding dimensionality of the adversarial samples and their effectiveness on models tuned with input samples with same embedding dimension. We utilize this sensitivity to design an adversarial defense mechanism. We use ensemble models of varying inherent dimensionality to thwart the attacks. This is tested on multiple datasets for its efficacy in providing robustness. We also study the problem of measuring adversarial perturbation using different distance metrics. For all of the aforementioned studies, we have run tests on multiple models with varying dimensionality and used a word-vector level adversarial attack to substantiate the findings.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# 大容量リモートセンシング画像密度予測のためのRS-Mamba

RS-Mamba for Large Remote Sensing Image Dense Prediction ( http://arxiv.org/abs/2404.02668v1 )

ライセンス: Link先を確認
Sijie Zhao, Hao Chen, Xueliang Zhang, Pengfeng Xiao, Lei Bai, Wanli Ouyang, (参考訳) リモートセンシング画像の空間分解能はますます高まってきており、高密度予測タスクのために大規模な超高解像度(VHR)リモートセンシング画像を扱う上での課題となっている。 畳み込みニューラルネットワークに基づくモデルは、局所畳み込み操作によるリモートセンシング画像のグローバルな特徴をモデル化する能力に制限がある。 トランスフォーマーベースのモデルは、そのグローバルなモデリング能力にもかかわらず、その2次複雑さのため、大きなVHRイメージによる計算上の課題に直面している。 大きな画像を小さなパッチにトリミングする一般的なプラクティスは、コンテキスト情報のかなりの損失をもたらす。 これらの問題に対処するため、VHRリモートセンシングにおける高密度予測タスクのためのリモートセンシング・マンバ(RSM)を提案する。 RSMは、線形複雑なリモートセンシング画像のグローバルな特徴をモデル化し、大きなVHR画像を効率的に処理できるように設計されている。 このモジュールは全方向選択的スキャンモジュールを使用して、複数の方向から画像をモデル化し、様々な方向から大きな空間的特徴を捉えている。 様々なオブジェクトに対する意味的セグメンテーションと変化検出タスクの実験は、RCMの有効性を実証している。 シンプルなモデルアーキテクチャとトレーニングアプローチにより、RSMはVHRリモートセンシングの高密度予測タスクにおいて最先端のパフォーマンスを達成する。 この作業のコードはhttps://github.com/walking-shadow/Official_Remote_Sensing_Mambaで公開される。

The spatial resolution of remote sensing images is becoming increasingly higher, posing challenges in handling large very-high-resolution (VHR) remote sensing images for dense prediction tasks. Models based on convolutional neural networks are limited in their ability to model global features of remote sensing images due to local convolution operations. Transformer based models, despite their global modeling capabilities, face computational challenges with large VHR images due to their quadratic complexity. The common practice of cropping large images into smaller patches leads to a significant loss of contextual information. To address these issues, we propose the Remote Sensing Mamba (RSM) for dense prediction tasks in VHR remote sensing. RSM is designed to model global features of remote sensing images with linear complexity, enabling it to process large VHR images effectively. It employs an omnidirectional selective scan module to globally model the images in multiple directions, capturing large spatial features from various directions. Experiments on semantic segmentation and change detection tasks across various objects demonstrate the effectiveness of RSM. With simple model architecture and training approach, RSM achieves state-of-the-art performance on the dense prediction tasks of VHR remote sensing. The code for this work will be available at https://github.com/walking-shadow/Official_Remote_Sensing_Mamba.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# カー状態シードによるSU(1,1)干渉計の位相感度の向上

Enhancement in phase sensitivity of SU(1,1) interferometer with Kerr state seeding ( http://arxiv.org/abs/2404.02674v1 )

ライセンス: Link先を確認
Priyanka Sharma, Aviral K. Pandey, Gaurav Shukla, Devendra Kumar Mishra, (参考訳) コヒーレントシードSU(1,1)干渉計は精度測定の分野で顕著な技術を提供する。 我々は,SU(1,1)干渉計のKerr状態シードによる位相感度を,単一強度およびホモダイン検出方式で理論的に検討した。 この場合、下界を求めるために、量子フィッシャー情報技術を用いて量子クラム・ラオ境界を計算する。 いくつかの条件下では、Kerrシードは、よく知られた真空およびコヒーレントシードケースと比較して位相感度が良いことが判明した。 我々は、Kerr状態が量子情報およびセンシング技術分野における代替の非古典的状態として機能することを期待している。

A coherent seeded SU(1,1) interferometer provides a prominent technique in the field of precision measurement. We theoretically study the phase sensitivity of SU(1,1) interferometer with Kerr state seeding under single intensity and homodyne detection schemes. To find the lower bound in this case we calculate the quantum Cram\'er-Rao bound using the quantum Fisher information technique. We found that, under some conditions, the Kerr seeding performs better in phase sensitivity compared to the well-known vacuum and coherent seeded case. We expect that the Kerr state might act as an alternative non-classical state in the field of quantum information and sensing technologies.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# 最前線AI開発のための責任レポート

Responsible Reporting for Frontier AI Development ( http://arxiv.org/abs/2404.02675v1 )

ライセンス: Link先を確認
Noam Kolt, Markus Anderljung, Joslyn Barnhart, Asher Brass, Kevin Esvelt, Gillian K. Hadfield, Lennart Heim, Mikel Rodriguez, Jonas B. Sandbrink, Thomas Woodside, (参考訳) フロンティアAIシステムからのリスクを緩和するには、それらのシステムに関する最新かつ信頼性の高い情報が必要である。 フロンティアシステムの開発と展開を行う組織は、そのような情報にかなりのアクセス権を持つ。 政府、産業、市民社会のアクターに安全クリティカルな情報を報告することで、これらの組織はフロンティア・システムによって引き起こされる新しい新興のリスクに対する可視性を向上させることができる。 この情報を具備すれば、開発者はリスク管理に関してより詳しい判断を下すことができ、政策立案者はよりターゲットを絞って堅牢な規制インフラを設計できる。 責任を負う報告の重要な特徴を概説し、実際に実施するためのメカニズムを提案する。

Mitigating the risks from frontier AI systems requires up-to-date and reliable information about those systems. Organizations that develop and deploy frontier systems have significant access to such information. By reporting safety-critical information to actors in government, industry, and civil society, these organizations could improve visibility into new and emerging risks posed by frontier systems. Equipped with this information, developers could make better informed decisions on risk management, while policymakers could design more targeted and robust regulatory infrastructure. We outline the key features of responsible reporting and propose mechanisms for implementing them in practice.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# VoicePrivacy 2024 Challenge Evaluation Plan

The VoicePrivacy 2024 Challenge Evaluation Plan ( http://arxiv.org/abs/2404.02677v1 )

ライセンス: Link先を確認
Natalia Tomashenko, Xiaoxiao Miao, Pierre Champion, Sarina Meyer, Xin Wang, Emmanuel Vincent, Michele Panariello, Nicholas Evans, Junichi Yamagishi, Massimiliano Todisco, (参考訳) 課題は,言語的内容や感情的状態を保護しつつ,話者の音声アイデンティティを隠蔽する音声データのための音声匿名化システムを開発することである。 オーガナイザは、開発および評価データセットと評価スクリプト、ベースライン匿名化システム、および参加者の要求に基づいて形成されたトレーニングリソースのリストを提供する。 参加者は、開発した匿名化システムを適用し、評価スクリプトを実行し、評価結果と匿名化された音声データをオーガナイザに送信する。 結果は、Interspeech 2024と共同で開かれたワークショップで発表され、参加者全員にチャレンジシステムを提示し、追加のワークショップ論文を提出する。

The task of the challenge is to develop a voice anonymization system for speech data which conceals the speaker's voice identity while protecting linguistic content and emotional states. The organizers provide development and evaluation datasets and evaluation scripts, as well as baseline anonymization systems and a list of training resources formed on the basis of the participants' requests. Participants apply their developed anonymization systems, run evaluation scripts and submit evaluation results and anonymized speech data to the organizers. Results will be presented at a workshop held in conjunction with Interspeech 2024 to which all participants are invited to present their challenge systems and to submit additional workshop papers.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# 小物体意味対応のための独立的キーポイント学習

Independently Keypoint Learning for Small Object Semantic Correspondence ( http://arxiv.org/abs/2404.02678v1 )

ライセンス: Link先を確認
Hailong Jin, Huiying Li, (参考訳) セマンティック対応は、クラス内の大きな外観のため、同じカテゴリまたは類似のシーンを持つ一対のイメージ間の対応を確立する上で、依然として困難な課題である。 本稿では,「Small Object Semantic Correspondence (SOSC)」という新しい問題を紹介する。 この問題は、小さなオブジェクトに関連付けられたキーポイントが近づき、それぞれの特徴が融合するからである。 融合特徴の対応する要点を特定することは困難であり、認識も困難である。 この課題に対処するために,小型オブジェクトのキーポイント間の空間的分離を向上し,これらのキーポイントの独立学習を容易にするキーポイントバウンディングボックス中心クロップ法(KBC)を提案する。 KBC法は提案した推論パイプラインにシームレスに統合され,他の手法に容易に組み込むことができるため,性能が大幅に向上する。 さらに、KBCNetという新しいフレームワークを導入し、ベースラインモデルとして機能します。 KBCNetはCSFAモジュールと効率的な4D畳み込みデコーダを備える。 CSFAモジュールは、マルチスケールの機能の整合を図り、きめ細かい機能と深いセマンティック機能を統合することでキーポイント表現を充実させるように設計されている。 一方、効率的な4D畳み込みに基づく4D畳み込みデコーダは、効率と迅速な収束を保証する。 提案手法の有効性を実証的に検証するために,PF-PASCAL,PF-WILLOW,SPair-71kの3つの広く利用されているベンチマークを用いて広範囲な実験を行った。 KBC法はSPair-71Kデータセットの7.5\%の性能向上を示し,その有効性を示す。

Semantic correspondence remains a challenging task for establishing correspondences between a pair of images with the same category or similar scenes due to the large intra-class appearance. In this paper, we introduce a novel problem called 'Small Object Semantic Correspondence (SOSC).' This problem is challenging due to the close proximity of keypoints associated with small objects, which results in the fusion of these respective features. It is difficult to identify the corresponding key points of the fused features, and it is also difficult to be recognized. To address this challenge, we propose the Keypoint Bounding box-centered Cropping (KBC) method, which aims to increase the spatial separation between keypoints of small objects, thereby facilitating independent learning of these keypoints. The KBC method is seamlessly integrated into our proposed inference pipeline and can be easily incorporated into other methodologies, resulting in significant performance enhancements. Additionally, we introduce a novel framework, named KBCNet, which serves as our baseline model. KBCNet comprises a Cross-Scale Feature Alignment (CSFA) module and an efficient 4D convolutional decoder. The CSFA module is designed to align multi-scale features, enriching keypoint representations by integrating fine-grained features and deep semantic features. Meanwhile, the 4D convolutional decoder, based on efficient 4D convolution, ensures efficiency and rapid convergence. To empirically validate the effectiveness of our proposed methodology, extensive experiments are conducted on three widely used benchmarks: PF-PASCAL, PF-WILLOW, and SPair-71k. Our KBC method demonstrates a substantial performance improvement of 7.5\% on the SPair-71K dataset, providing compelling evidence of its efficacy.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# PejorativITy: イタリアのつぶやきにおけるミソジニー検出を改善するためにペジョラティヴィティを曖昧に

PejorativITy: Disambiguating Pejorative Epithets to Improve Misogyny Detection in Italian Tweets ( http://arxiv.org/abs/2404.02681v1 )

ライセンス: Link先を確認
Arianna Muti, Federico Ruggeri, Cagri Toraman, Lorenzo Musetti, Samuel Algherini, Silvia Ronchi, Gianmarco Saretto, Caterina Zapparoli, Alberto Barrón-Cedeño, (参考訳) ミソジニーはしばしば比喩的な言語で表現される。 いくつかの中性語は、悲観的表現として機能するときに否定的な意味を仮定することができる。 このような言葉の意味を曖昧にすることは、誤認を検出するのに役立つかもしれない。 このような課題に対処するために,1200のイタリア語ツイートを手作業で注釈付けした新しいコーパスであるPejorativITyを紹介した。 本研究では,不明瞭な単語に関する情報を誤検出を対象とするモデルに注入する効果を評価する。 特に,説明的情報の結合と曖昧な単語を単音節で置換する2つの異なる注入方法を探究する。 我々のコーパスと2つの人気のあるイタリアのつぶやきのベンチマークによる実験結果から、どちらの手法も大きな分類改善につながることが示され、単語感覚の曖昧さが誤検出のための有望な予備的なステップであることが示唆された。 さらに,文脈的単語埋め込み分析とプロンプトによるLLMの語句認識について検討した。

Misogyny is often expressed through figurative language. Some neutral words can assume a negative connotation when functioning as pejorative epithets. Disambiguating the meaning of such terms might help the detection of misogyny. In order to address such task, we present PejorativITy, a novel corpus of 1,200 manually annotated Italian tweets for pejorative language at the word level and misogyny at the sentence level. We evaluate the impact of injecting information about disambiguated words into a model targeting misogyny detection. In particular, we explore two different approaches for injection: concatenation of pejorative information and substitution of ambiguous words with univocal terms. Our experimental results, both on our corpus and on two popular benchmarks on Italian tweets, show that both approaches lead to a major classification improvement, indicating that word sense disambiguation is a promising preliminary step for misogyny detection. Furthermore, we investigate LLMs' understanding of pejorative epithets by means of contextual word embeddings analysis and prompting.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# リニアコスト推論変換器のクロスアーキテクチャ変換学習

Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers ( http://arxiv.org/abs/2404.02684v1 )

ライセンス: Link先を確認
Sehyun Choi, (参考訳) 近年,線形コスト推論(LCI)を実現するために自己注意ブロックの設計を変更することで,トランスフォーマー言語モデルの効率を向上させるために,複数のアーキテクチャが提案されている。 この領域で注目すべきアプローチは、ステートスペースマシン(SSM)アーキテクチャであり、自己注意変換器を用いた言語モデリングタスクのオンパーパフォーマンスを示している。 しかし、そのようなアーキテクチャの変更は、スクラッチからウェイトを完全に事前トレーニングする必要があるため、新しいアーキテクチャを使いたい研究者や実践者には大きなコストがかかる。 より伝統的な線形アテンション研究において、スワップ・アンド・ファイントゥン・フレームワークにより、線形アテンションを線形アテンションに近似することが提案されている。 提案手法は,レイヤノルム,MLP,入出力埋め込みなど,LCIと自己注意型トランスフォーマー間の共有コンポーネントの重み付けを,すでに訓練済みのモデルパラメータから新しいアーキテクチャへ直接転送するクロスアーキテクチャトランスフォーメーション学習(XATL)を提案する。 提案手法は, 異なるサイズと他の注目アーキテクチャに対して有効であり, トレーニング時間を最大2.5倍に短縮し, 同じ計算予算内でのLMベンチマークにおいて最大2.6%の精度で, より優れた最小値に収束することを示した。

Recently, multiple architectures has been proposed to improve the efficiency of the Transformer Language Models through changing the design of the self-attention block to have a linear-cost inference (LCI). A notable approach in this realm is the State-Space Machines (SSMs) architecture, which showed on-par performance on language modeling tasks with the self-attention transformers. However, such an architectural change requires a full pretraining of the weights from scratch, which incurs a huge cost to researchers and practitioners who want to use the new architectures. In the more traditional linear attention works, it has been proposed to approximate full attention with linear attention by swap-and-finetune framework. Motivated by this approach, we propose Cross-Architecture Transfer Learning (XATL), in which the weights of the shared components between LCI and self-attention-based transformers, such as layernorms, MLPs, input/output embeddings, are directly transferred to the new architecture from already pre-trained model parameters. We experimented the efficacy of the method on varying sizes and alternative attention architectures and show that \methodabbr significantly reduces the training time up to 2.5x times and converges to a better minimum with up to 2.6% stronger model on the LM benchmarks within the same compute budget.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# Design2Cloth:2Dマスクによる3D衣料生成

Design2Cloth: 3D Cloth Generation from 2D Masks ( http://arxiv.org/abs/2404.02686v1 )

ライセンス: Link先を確認
Jiali Zheng, Rolandos Alexandros Potamias, Stefanos Zafeiriou, (参考訳) 近年、リアルなアバターを作るための重要なステップとして、デジタルアバター研究の分野において、モデリング、アニメーション、再構築への大きな変化があった。 しかし、現在の3D布創製法は、合成データに特化的、あるいは完全に訓練されているため、細部やリアリズムが欠如している。 本研究では,2000以上の被験者スキャンから実世界のデータセットをトレーニングした高忠実度3D生成モデルであるDesign2Clothを提案する。 ファッション業界に重要な貢献をするために,2次元の布マスクを描画するだけで多彩で詳細な衣服を生成できる,ユーザフレンドリーな敵モデルを開発した。 定性的かつ定量的な実験のシリーズでは、Design2Clothが現在の最先端の織物生成モデルよりも大きなマージンで優れていることを示す。 提案手法は, ネットワークの生成特性に加えて, ワン・イン・ザ・ウィルド画像と3Dスキャンから高品質な再構成を実現するためにも有効であることを示す。 データセット、コード、事前訓練されたモデルが公開される。

In recent years, there has been a significant shift in the field of digital avatar research, towards modeling, animating and reconstructing clothed human representations, as a key step towards creating realistic avatars. However, current 3D cloth generation methods are garment specific or trained completely on synthetic data, hence lacking fine details and realism. In this work, we make a step towards automatic realistic garment design and propose Design2Cloth, a high fidelity 3D generative model trained on a real world dataset from more than 2000 subject scans. To provide vital contribution to the fashion industry, we developed a user-friendly adversarial model capable of generating diverse and detailed clothes simply by drawing a 2D cloth mask. Under a series of both qualitative and quantitative experiments, we showcase that Design2Cloth outperforms current state-of-the-art cloth generative models by a large margin. In addition to the generative properties of our network, we showcase that the proposed method can be used to achieve high quality reconstructions from single in-the-wild images and 3D scans. Dataset, code and pre-trained model will become publicly available.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# カテゴリーサイバーネティクスにおける強化学習

Reinforcement Learning in Categorical Cybernetics ( http://arxiv.org/abs/2404.02688v1 )

ライセンス: Link先を確認
Jules Hedges, Riu Rodríguez Sakamoto, (参考訳) 我々は、強化学習(RL)のいくつかの主要なアルゴリズムが、分類サイバーネティクスの枠組み、すなわちパラメトリド双方向プロセスに適合していることを示します。 私たちは以前の研究に基づいて、価値の反復は特定の光学で前もって表現できることを示しました。 本論文の主な構成の概要は次の通りである: 1) ベルマン作用素をパラメトリド光学へ拡張し、作用値関数に適用し、サンプルに依存する。 2) 表現可能な反変関手を適用し、ベルマン反復を適用するパラメトリド関数を得る。 (3) このパラメトリッド関数は、エージェントを介して環境と相互作用するモデルを表す別のパラメトリッド光学の後方通過となる。 このように、パラメトリッド光学は、構成において2つの異なる方法で現れ、一方が他方の一部となる。 示すように、RLのアルゴリズムの主要なクラスの多くは、動的プログラミング、モンテカルロ法、時間差分学習、深部RLといった、この一般的なセットアップの様々な極端ケースと見なすことができる。 このアプローチが自然なものであるという強い証拠であり、将来的にはRLについて考えるための実りある方法になるだろうと考えています。

We show that several major algorithms of reinforcement learning (RL) fit into the framework of categorical cybernetics, that is to say, parametrised bidirectional processes. We build on our previous work in which we show that value iteration can be represented by precomposition with a certain optic. The outline of the main construction in this paper is: (1) We extend the Bellman operators to parametrised optics that apply to action-value functions and depend on a sample. (2) We apply a representable contravariant functor, obtaining a parametrised function that applies the Bellman iteration. (3) This parametrised function becomes the backward pass of another parametrised optic that represents the model, which interacts with an environment via an agent. Thus, parametrised optics appear in two different ways in our construction, with one becoming part of the other. As we show, many of the major classes of algorithms in RL can be seen as different extremal cases of this general setup: dynamic programming, Monte Carlo methods, temporal difference learning, and deep RL. We see this as strong evidence that this approach is a natural one and believe that it will be a fruitful way to think about RL in the future.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# ガウス分布入力による注意は自然に疎い

Attention is Naturally Sparse with Gaussian Distributed Input ( http://arxiv.org/abs/2404.02690v1 )

ライセンス: Link先を確認
Yichuan Deng, Zhao Song, Chiwun Yang, (参考訳) 大規模言語モデル(LLM)の計算強度は、主にトランスフォーマーアーキテクチャにおける注意機構の複雑さのため、重要なボトルネックとなっている。 これに対応するために、モデル性能を維持しながら計算負荷を削減することを目的として、スパースアテンションが重要なイノベーションとして浮かび上がっている。 本研究では,特にガウス入力の枠組みの下で,LLMにおける注意点の空間性に関する厳密な理論的解析を行った。 基本的な仮定の集合を確立し,方法論的理論的アプローチを用いることで,注目スコアの空間性の本質的特性と,その計算効率への影響を明らかにする。 我々の主な貢献は、空間が注意機構にどのように現れるかに関する詳細な理論的考察を提供することであり、計算貯蓄とモデルの有効性の間の潜在的なトレードオフに関する洞察を提供する。 この作業は、スパースアテンションの理解を深めるだけでなく、LLMの計算フレームワークを最適化し、よりスケーラブルで効率的なAIシステムを実現するための足場も提供します。

The computational intensity of Large Language Models (LLMs) is a critical bottleneck, primarily due to the $O(n^2)$ complexity of the attention mechanism in transformer architectures. Addressing this, sparse attention emerges as a key innovation, aiming to reduce computational load while maintaining model performance. This study presents a rigorous theoretical analysis of the sparsity in attention scores within LLMs, particularly under the framework of Gaussian inputs. By establishing a set of foundational assumptions and employing a methodical theoretical approach, we unravel the intrinsic characteristics of attention score sparsity and its implications on computational efficiency. Our main contribution lies in providing a detailed theoretical examination of how sparsity manifests in attention mechanisms, offering insights into the potential trade-offs between computational savings and model effectiveness. This work not only advances our understanding of sparse attention but also provides a scaffold for future research in optimizing the computational frameworks of LLMs, paving the way for more scalable and efficient AI systems.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# グラフ変換規則の自動推論

Automated Inference of Graph Transformation Rules ( http://arxiv.org/abs/2404.02692v1 )

ライセンス: Link先を確認
Jakob L. Andersen, Akbar Davoodi, Rolf Fagerberg, Christoph Flamm, Walter Fontana, Juri Kolčák, Christophe V. F. P. Laurent, Daniel Merkle, Nikolai Nøjgaard, (参考訳) 生命科学で利用可能なデータの爆発は、表現力のあるモデルや計算方法への需要を増している。 グラフ変換は、様々なアプリケーションを持つ動的システムのモデルである。 生成的視点と動的視点を組み合わせたグラフ変換モデル構築の新しい手法を導入し,完全に自動化されたデータ駆動モデル推論手法を提案する。 この方法は、明示的な遷移によって符号化された力学の「スナップショット」として与えられる入力力学特性を取り、互換性のあるモデルを構築する。 得られたモデルは最小限であることを保証するため、(一組のトランジションから一連のルールへ)モデル圧縮としてアプローチをフレーミングする。 圧縮は、構成されたモデルが入力遷移の外での挙動を示すことを許された損失ケースに許容され、入力ダイナミクスの完了を示唆する。 グラフ変換モデル推論の課題は、コンビネータが関与しているため、自然に非常に困難である。 我々は、高度に最適化された解が存在するよく確立された問題、集合被覆に、タスクのヒューリスティックに最小限の変換を提案することによって、指数的爆発に取り組む。 さらに、グラフ変換の観点で表されるコルモゴロフ複雑性との関係について述べる。

The explosion of data available in life sciences is fueling an increasing demand for expressive models and computational methods. Graph transformation is a model for dynamic systems with a large variety of applications. We introduce a novel method of the graph transformation model construction, combining generative and dynamical viewpoints to give a fully automated data-driven model inference method. The method takes the input dynamical properties, given as a "snapshot" of the dynamics encoded by explicit transitions, and constructs a compatible model. The obtained model is guaranteed to be minimal, thus framing the approach as model compression (from a set of transitions into a set of rules). The compression is permissive to a lossy case, where the constructed model is allowed to exhibit behavior outside of the input transitions, thus suggesting a completion of the input dynamics. The task of graph transformation model inference is naturally highly challenging due to the combinatorics involved. We tackle the exponential explosion by proposing a heuristically minimal translation of the task into a well-established problem, set cover, for which highly optimized solutions exist. We further showcase how our results relate to Kolmogorov complexity expressed in terms of graph transformation.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# ディーププライバシ・ファンネルモデル:識別から生成的アプローチへ : 顔認識への応用

Deep Privacy Funnel Model: From a Discriminative to a Generative Approach with an Application to Face Recognition ( http://arxiv.org/abs/2404.02696v1 )

ライセンス: Link先を確認
Behrooz Razeghi, Parsa Rahimi, Sébastien Marcel, (参考訳) 本研究では,情報理論のプライバシ・ファンネル(PF)モデルを顔認識領域に適用し,エンドツーエンドのトレーニングフレームワーク内でのプライバシ保存表現学習の新しい手法を開発する。 データ保護における難読化とユーティリティのトレードオフは,対数的損失(自己情報的損失)によって定量化されている。 本研究は,顔認識システムを中心に,情報理論のプライバシ原則と表現学習の統合に関する基礎研究を提供する。 特に、AdaFaceやArcFaceといった顔認識ネットワークの最近の進歩により、我々のフレームワークの適応性を強調します。 さらに、PFモデルの従来のスコープを超えて拡張されるジェネレーティブプライバシファネル(\mathsf{GenPF}$)モデル(「差別プライバシファネル(\mathsf{DisPF}$)」)を導入します。 この$\mathsf{GenPF}$モデルは、推定理論と情報理論のプライバシー保証を備えたデータ生成メソッドの新しい視点をもたらす。 これらの発展を補完し、深部変分PF(DVPF)モデルも提示する。 本モデルでは,情報漏洩を計測し,深層表現学習におけるプライバシー保護課題の理解を深めるための,トラクタブルな変動境界を提案する。 DVPFモデルは、$\mathsf{DisPF}$と$\mathsf{GenPF}$モデルの両方に関連付けられ、変分オートエンコーダ(VAE)、GAN(Generative Adversarial Networks)、拡散モデルといった様々な生成モデルとの接続に光を当てる。 理論的貢献を補完し、再現可能なPyTorchパッケージをリリースし、顔認識システムにおけるこれらのプライバシ保護手法のさらなる探索と適用を容易にする。

In this study, we apply the information-theoretic Privacy Funnel (PF) model to the domain of face recognition, developing a novel method for privacy-preserving representation learning within an end-to-end training framework. Our approach addresses the trade-off between obfuscation and utility in data protection, quantified through logarithmic loss, also known as self-information loss. This research provides a foundational exploration into the integration of information-theoretic privacy principles with representation learning, focusing specifically on the face recognition systems. We particularly highlight the adaptability of our framework with recent advancements in face recognition networks, such as AdaFace and ArcFace. In addition, we introduce the Generative Privacy Funnel ($\mathsf{GenPF}$) model, a paradigm that extends beyond the traditional scope of the PF model, referred to as the Discriminative Privacy Funnel ($\mathsf{DisPF}$). This $\mathsf{GenPF}$ model brings new perspectives on data generation methods with estimation-theoretic and information-theoretic privacy guarantees. Complementing these developments, we also present the deep variational PF (DVPF) model. This model proposes a tractable variational bound for measuring information leakage, enhancing the understanding of privacy preservation challenges in deep representation learning. The DVPF model, associated with both $\mathsf{DisPF}$ and $\mathsf{GenPF}$ models, sheds light on connections with various generative models such as Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), and Diffusion models. Complementing our theoretical contributions, we release a reproducible PyTorch package, facilitating further exploration and application of these privacy-preserving methodologies in face recognition systems.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# 少数ショット例による生成画像のモデル非依存的原点属性

Model-agnostic Origin Attribution of Generated Images with Few-shot Examples ( http://arxiv.org/abs/2404.02697v1 )

ライセンス: Link先を確認
Fengyuan Liu, Haochen Luo, Yiming Li, Philip Torr, Jindong Gu, (参考訳) 視覚生成モデルの最近の進歩は、高品質な画像の生成を可能にする。 生成した画像の誤用を防止するために、生成する原点モデルを特定することが重要である。 本研究では,ソースモデルによって生成された少数の画像のみにアクセスでき,ソースモデルにアクセスできない現実的な環境で,生成した画像の起源属性について検討する。 ゴールは、ある画像がソースモデルによって生成されるかどうかを確認することである。 まず、この問題を数発の1クラス分類タスクとして定式化する。 この課題を解決するために,数発のワンクラス分類のためのCLIPベースのフレームワークであるOCC-CLIPを提案する。 OCC-CLIPフレームワークの有効性を検証した。 さらに、最近リリースされたDALL-E 3 APIに基づく実験により、我々のソリューションの現実的な適用性を検証する。

Recent progress in visual generative models enables the generation of high-quality images. To prevent the misuse of generated images, it is important to identify the origin model that generates them. In this work, we study the origin attribution of generated images in a practical setting where only a few images generated by a source model are available and the source model cannot be accessed. The goal is to check if a given image is generated by the source model. We first formulate this problem as a few-shot one-class classification task. To solve the task, we propose OCC-CLIP, a CLIP-based framework for few-shot one-class classification, enabling the identification of an image's source model, even among multiple candidates. Extensive experiments corresponding to various generative models verify the effectiveness of our OCC-CLIP framework. Furthermore, an experiment based on the recently released DALL-E 3 API verifies the real-world applicability of our solution.
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# カスタマイズされたエキスパートネットワークによるスケーラブルなモデル編集

Scalable Model Editing via Customized Expert Networks ( http://arxiv.org/abs/2404.02699v1 )

ライセンス: Link先を確認
Zihan Yao, Yu He, Tianyu Qi, Ming Li, (参考訳) 大規模な言語モデルにおける幻覚や時代遅れの知識の問題に対処することは、その信頼性の高い応用に不可欠である。 モデル編集は、これらの課題をコスト効率の良い方法で緩和するための有望な道を示す。 しかし、既存の手法は、しばしば不満足な一般化と無関係なサンプルに対する意図しない影響に悩まされる。 このような制限を克服するために,2段階の継続的トレーニングパラダイムであるCustomized Expert Networks (SCEN)によるスケーラブルモデル編集という,新たなアプローチを導入する。 特に第1段階では、更新が必要な知識毎に、軽量な専門家ネットワークを個別にトレーニングします。 その後、各専門家に対応するニューロンを訓練し、その専門家の活性化状態を制御する。 Llama2 7B と 13B の2種類のオープンソースの大規模言語モデルについて実験を行った。 私たちのコードはhttps: //github.com/TAL-auroraX/SCENで利用可能です。

Addressing the issue of hallucinations and outdated knowledge in large language models is critical for their reliable application. Model Editing presents a promising avenue for mitigating these challenges in a cost-effective manner. However, existing methods often suffer from unsatisfactory generalization and unintended effects on unrelated samples. To overcome these limitations, we introduce a novel approach: Scalable Model Editing via Customized Expert Networks (SCEN), which is a two-stage continuous training paradigm. Specifically, in the first stage, we train lightweight expert networks individually for each piece of knowledge that needs to be updated. Subsequently, we train a corresponding neuron for each expert to control the activation state of that expert. Our experiments on two different sizes of open-source large language models, the Llama2 7B and 13B, achieve state-of-the-art results compared to existing mainstream Model Editing methods. Our code is available at https: //github.com/TAL-auroraX/SCEN
翻訳日:2024-04-04 17:31:03 公開日:2024-04-03
# PromptCodec: Adaptive Feature-Aware Prompt Encoders を用いたディスタングル表現学習を用いた高忠実性ニューラル音声符号化

PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders ( http://arxiv.org/abs/2404.02702v1 )

ライセンス: Link先を確認
Yu Pan, Lei Ma, Jianjun Zhao, (参考訳) ニューラル音声コーデックは、最近、音声変換、テキスト音声合成など、生成的音声モデリング領域で広く注目を集めている。 しかし、高い圧縮率下での音声コーデックの高忠実度再生を保証することは、オープンで困難な問題である。 本稿では,不整合表現学習に基づく特徴認識プロンプトエンコーダを用いたニューラル・ツー・エンドのニューラル・コーデック・モデルであるPromptCodecを提案する。 プロンプトエンコーダから付加的な特徴表現を組み込むことで、PromptCodecは処理を必要とする音声情報を配布し、その機能を強化することができる。 さらに、異なるエンコーダの機能を統合するために、単純で効果的な適応的特徴重み付き融合法が導入された。 一方,PromptCodecのエンコーダを最適化し,効率を向上し,PromptCodecの性能向上を図るために,コサイン距離に基づく新しい非絡み合い表現学習戦略を提案する。 LibriTTSの実験では、提案したPromptCodecは、あらゆる異なるビットレート条件下で、最先端のニューラル音声コーデックモデルより一貫して優れ、低ビットレートで優れたパフォーマンスを実現している。

Neural speech codec has recently gained widespread attention in generative speech modeling domains, like voice conversion, text-to-speech synthesis, etc. However, ensuring high-fidelity audio reconstruction of speech codecs under high compression rates remains an open and challenging issue. In this paper, we propose PromptCodec, a novel end-to-end neural speech codec model using disentangled representation learning based feature-aware prompt encoders. By incorporating additional feature representations from prompt encoders, PromptCodec can distribute the speech information requiring processing and enhance its capabilities. Moreover, a simple yet effective adaptive feature weighted fusion approach is introduced to integrate features of different encoders. Meanwhile, we propose a novel disentangled representation learning strategy based on cosine distance to optimize PromptCodec's encoders to ensure their efficiency, thereby further improving the performance of PromptCodec. Experiments on LibriTTS demonstrate that our proposed PromptCodec consistently outperforms state-of-the-art neural speech codec models under all different bitrate conditions while achieving impressive performance with low bitrates.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 時間的不等式を有するマルチキュービット量子系の証明

Certification of multi-qubit quantum systems with temporal inequalities ( http://arxiv.org/abs/2404.02709v1 )

ライセンス: Link先を確認
Gautam Sharma, Chellasamy Jebarathinam, Sk Sazim, Remigiusz Augusiak, (参考訳) 量子論における文脈的相関を非文脈的不等式に違反することによって証明するには、必ずいくつかの「文脈」が必要であり、従って測定間のいくつかの互換性関係を仮定する。 結果として、そのような不等式の最大違反に基づく自己テストプロトコルは、そのような仮定から解放されることはない。 本研究では,マルチキュービットシステムにおける非コンテクスト的不等式から導かれる時間的不等式を,測定値間の互換性関係を仮定することなく提案する。 本研究では,新たな不等式が逐次測定シナリオによって最大値に違反できることを実証する。 さらに、これらの時間的不等式の最大違反を利用して、マルチキュービットグラフ状態とその測定を証明できる。

Demonstrating contextual correlations in quantum theory through the violation of a non-contextuality inequality necessarily needs some ``contexts" and thus assumes some compatibility relations between the measurements. As a result, any self-testing protocol based on the maximal violation of such inequality is not free from such assumptions. In this work, we propose temporal inequalities derived from non-contextuality inequalities for multi-qubit systems without assuming any compatibility relations among the measurements. We demonstrate that the new inequalities can be maximally violated via a sequential measurement scenario. Moreover, using the maximal violation of these temporal inequalities we are able to certify multi-qubit graph states and the measurements.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# ART: 音声入力と模倣のための交代読解タスクコーパス

ART: The Alternating Reading Task Corpus for Speech Entrainment and Imitation ( http://arxiv.org/abs/2404.02710v1 )

ライセンス: Link先を確認
Zheng Yuan, Dorina de Jong, Štefan Beňuš, Noël Nguyen, Ruitao Feng, Róbert Sabo, Luciano Fadiga, Alessandro D`Ausilio, (参考訳) 本稿では,音声通信における係り受け動作と模倣行動を研究するために,文読点の集合であるARTコーパスを紹介する。 ARTコーパスは、独読、交互読、故意の模倣という3つの実験的な条件と、フランス語、イタリア語、スロバキア英語を含む3つのサブコーパスで構成されている。 この設計により、制御された、非自発的な環境での音声の運動を体系的に調査することができる。 詳細な書き起こしに加えて、英語の習熟度スコア、人口統計、および言語的、個人的、対人的影響がエントレーニングに与える影響を調査するための試験的なアンケートが含まれる。 本発表では, その設計, 収集, アノテーションプロセス, 初期分析, 今後の研究展望について述べる。

We introduce the Alternating Reading Task (ART) Corpus, a collection of dyadic sentence reading for studying the entrainment and imitation behaviour in speech communication. The ART corpus features three experimental conditions - solo reading, alternating reading, and deliberate imitation - as well as three sub-corpora encompassing French-, Italian-, and Slovak-accented English. This design allows systematic investigation of speech entrainment in a controlled and less-spontaneous setting. Alongside detailed transcriptions, it includes English proficiency scores, demographics, and in-experiment questionnaires for probing linguistic, personal and interpersonal influences on entrainment. Our presentation covers its design, collection, annotation processes, initial analysis, and future research prospects.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# QDsim: 大規模量子ドットデバイスをシミュレートするユーザフレンドリーなツールボックス

QDsim: An user-friendly toolbox for simulating large-scale quantum dot device ( http://arxiv.org/abs/2404.02712v1 )

ライセンス: Link先を確認
Valentina Gualtieri, Charles Renshaw-Whitman, Vinicius Hernandes, Eliska Greplova, (参考訳) 我々は、大規模な量子ドットデバイスにおける電荷安定性図を高速に生成するためのピソンパッケージであるQDsimを紹介し、従来の二重あるいは三重のドットを超えて拡張する。 QDsimは、凸最適化問題として最低エネルギー電荷構成を求めるタスクを言い換える、定数相互作用モデルに基づいている。 したがって,既存のCVXPYパッケージと適切な強力な解法を組み合わせることで,安定図やポリトープの作成を効率化する凸最適化を実現できる。 複数の例を通して、自動チューニングアルゴリズムのための機械学習モデルのトレーニングの基礎となる大規模なデータセットを、QDsimがどのように生成できるかを実証する。 現在パッケージは、定数相互作用モデル以外の量子効果をサポートしていないが、QDsimは、半導体量子デバイスの開発を加速するために、より良いチューニングアルゴリズムのために、コスト効率と迅速なデータ取得のクリティカルなニーズに対処するツールである。

We introduce QDsim, a python package tailored for the rapid generation of charge stability diagrams in large-scale quantum dot devices, extending beyond traditional double or triple dots. QDsim is founded on the constant interaction model from which we rephrase the task of finding the lowest energy charge configuration as a convex optimization problem. Therefore, we can leverage the existing package CVXPY, in combination with an appropriate powerful solver, for the convex optimization which streamlines the creation of stability diagrams and polytopes. Through multiple examples, we demonstrate how QDsim enables the generation of large-scale dataset that can serve a basis for the training of machine-learning models for automated tuning algorithms. While the package currently does not support quantum effects beyond the constant interaction model, QDsim is a tool that directly addresses the critical need for cost-effective and expeditious data acquisition for better tuning algorithms in order to accelerate the development of semiconductor quantum devices.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 正側量子固有値変換を用いた量子共役勾配法

Quantum conjugate gradient method using the positive-side quantum eigenvalue transformation ( http://arxiv.org/abs/2404.02713v1 )

ライセンス: Link先を確認
Kiichiro Toyoizumi, Kaito Wada, Naoki Yamamoto, Kazuo Hoshino, (参考訳) 量子アルゴリズムは依然として、実デバイス上の方程式の線形系を解くのが難しい。 この課題は、ディープ回路と多数のアンシラ量子ビットの必要性から生じる。 量子固有値変換(QET)を用いた量子共役勾配(QCG)法を提案する。 このアルゴリズムの回路深さは、係数行列の条件数$\kappa$の平方根に依存する。 アンシラ量子ビットの数は、他のQETベースのアルゴリズムと同様に一定である。 さらに,QCG法を効率的に実装するために,多項式の正側のみを用いるQET法($P(x)$ for $x\in[0,1]$)を考案した。 我々は,1次元ポアソン方程式にアルゴリズムを適用して数値実験を行い,その解法に成功した。 数値的な結果から,本アルゴリズムは回路深度を大幅に改善し,QETに基づく別のアルゴリズムよりも3~4桁の精度で性能を向上する。

Quantum algorithms are still challenging to solve linear systems of equations on real devices. This challenge arises from the need for deep circuits and numerous ancilla qubits. We introduce the quantum conjugate gradient (QCG) method using the quantum eigenvalue transformation (QET). The circuit depth of this algorithm depends on the square root of the coefficient matrix's condition number $\kappa$, representing a square root improvement compared to the previous quantum algorithms. The number of ancilla qubits is constant, similar to other QET-based algorithms. Additionally, to implement the QCG method efficiently, we devise a QET-based technique that uses only the positive side of the polynomial (denoted by $P(x)$ for $x\in[0,1]$). We conduct numerical experiments by applying our algorithm to the one-dimensional Poisson equation and successfully solve it. Based on the numerical results, our algorithm significantly improves circuit depth, outperforming another QET-based algorithm by three to four orders of magnitude.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 条件エントロピーを用いた加速量子ビットを持つマルチキュービット系の分離性に関する条件

Conditions on separability in multiqubit systems with an accelerating qubit using a conditional entropy ( http://arxiv.org/abs/2404.02716v1 )

ライセンス: Link先を確認
Harsha Miriam Reji, Hemant Shreepad Hegde, R. Prabhu, (参考訳) アベ・ラジャゴパル(AR)$q$-条件エントロピーを用いて、多ビット純および混合GHZおよびW状態と加速量子ビットの分離性を特徴づけた。 我々は、純多ビット GHZ と W 状態が慣性: アクビットの1つが加速される非慣性二分法は、キュービットの加速度によらず、分離不能のままであることを示した。 これらのシステムでは、量子ビットの加速度とAR$q$条件エントロピーパラメータ$q$に対する非分離性の変化を効果的に捉えた。 しかし、上記の純状態に雑音を導入して得られる対応する多ビット混合状態において、慣性二分法における分離性についてより強い条件を得ることができる。 AR $ q $- Conditional entropy から得られるこれらの条件は、相対論的量子ビットを持つような多ビット状態における分離性に必要な条件である。

The separability in multiqubit pure and mixed GHZ and W states with an accelerating qubit has been characterized using Abe Rajagopal (AR) $ q $-conditional entropy. We observe that the pure multiqubit GHZ and W states in the inertial : non-inertial bipartition with one of their qubits being accelerated will remain non-separable irrespective of the qubit's acceleration. In these systems, we effectively captured the variation of their non-separability with respect to the acceleration of the qubit and the AR $ q $-conditional entropy parameter $ q $. However, in the corresponding multiqubit mixed states obtained by introducing a noise to the above pure states, one could get stronger conditions on their separability in the inertial : non-inertial bipartition, in terms of the mixing parameter, acceleration of the qubit and the number of qubits in the system, in the asymptotic limit of parameter $ q $. These conditions obtained from AR $ q $-conditional entropy serves as a necessary conditions for separability in such multiqubit states with a relativistic qubit.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 大規模言語モデルの自動プロンプト選択

Automatic Prompt Selection for Large Language Models ( http://arxiv.org/abs/2404.02717v1 )

ライセンス: Link先を確認
Viet-Tung Do, Van-Khanh Hoang, Duy-Hung Nguyen, Shahab Sabahi, Jeff Yang, Hajime Hotta, Minh-Tien Nguyen, Hung Le, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクを適切な命令プロンプトで実行することができる。 しかし、効果的なプロンプトを手動で設計するのは難しく、時間がかかる。 自動的なプロンプト最適化のための既存の方法には、柔軟性や効率性が欠けている。 本稿では,与えられた入力に対する最適プロンプトを,有限集合の合成候補プロンプトから自動的に選択する効果的な手法を提案する。 提案手法は,(1)学習データをクラスタ化し,LSMベースのプロンプト生成器を用いて各クラスタの候補プロンプトを生成すること,(2)プロンプト評価器をトレーニングするためのインプット・プロンプト・アウトプット・タプルのデータセットを合成すること,(3)プロンプト評価器を用いてテスト時に新しいインプットの最適なプロンプトを選択すること,の3つのステップから構成される。 本手法は,資源集約型トレーニングと推論の必要性を排除し,汎用性に即したバランスをとる。 GSM8K、MultiArith、AQuAといったゼロショット質問回答データセット上での競合性能を示している。

Large Language Models (LLMs) can perform various natural language processing tasks with suitable instruction prompts. However, designing effective prompts manually is challenging and time-consuming. Existing methods for automatic prompt optimization either lack flexibility or efficiency. In this paper, we propose an effective approach to automatically select the optimal prompt for a given input from a finite set of synthetic candidate prompts. Our approach consists of three steps: (1) clustering the training data and generating candidate prompts for each cluster using an LLM-based prompt generator; (2) synthesizing a dataset of input-prompt-output tuples for training a prompt evaluator to rank the prompts based on their relevance to the input; (3) using the prompt evaluator to select the best prompt for a new input at test time. Our approach balances prompt generality-specificity and eliminates the need for resource-intensive training and inference. It demonstrates competitive performance on zero-shot question-answering datasets: GSM8K, MultiArith, and AQuA.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 神経崩壊による塑性の理解は可能か?

Can We Understand Plasticity Through Neural Collapse? ( http://arxiv.org/abs/2404.02719v1 )

ライセンス: Link先を確認
Guglielmo Bonifazi, Iason Chalas, Gian Hess, Jakub Łucki, (参考訳) 本稿では,近年の深層学習における2つの現象,すなわち可塑性損失と神経崩壊の関連について検討する。 これらの相関関係を異なるシナリオで分析し、最初のタスクでの最初のトレーニングフェーズの間に有意な関連性を明らかにする。 さらに, 神経崩壊を緩和する正則化手法を導入し, この具体的環境での可塑性損失を軽減する効果を実証した。

This paper explores the connection between two recently identified phenomena in deep learning: plasticity loss and neural collapse. We analyze their correlation in different scenarios, revealing a significant association during the initial training phase on the first task. Additionally, we introduce a regularization approach to mitigate neural collapse, demonstrating its effectiveness in alleviating plasticity loss in this specific setting.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 日頭電力価格の確率予測のためのオンライン共形ニューラルネットワークアンサンブル

On-line conformalized neural networks ensembles for probabilistic forecasting of day-ahead electricity prices ( http://arxiv.org/abs/2404.02722v1 )

ライセンス: Link先を確認
Alessandro Brusaferri, Andrea Ballarino, Luigi Grossi, Fabrizio Laurini, (参考訳) 確率的電力価格予測(PEPF、probabilistic electric price forecasting)は、予測の不確実性の適切な定量化を要求され、再生可能エネルギーのシェアが増大する複雑な電力市場における運用を支援するため、関心が高まっている。 分散ニューラルネットワークのアンサンブルは、最近、最先端のPEPFベンチマークより優れていることが示されている。 それでも、予測の地平線上の様々なステップでカバレッジテストに合格できないため、重要な信頼性の強化が必要である。 本研究では,PEPF に対する新しいアプローチを提案する。この手法は,オンライン再校正手順内に展開される共形推論に基づく手法を用いて,最先端のニューラルネットワークのアンサンブルを拡張したものである。 複数の市場地域で実験が行われ、昼の予測が達成され、時間帯のカバレッジが向上し、安定した確率的スコアが得られた。

Probabilistic electricity price forecasting (PEPF) is subject of increasing interest, following the demand for proper quantification of prediction uncertainty, to support the operation in complex power markets with increasing share of renewable generation. Distributional neural networks ensembles have been recently shown to outperform state of the art PEPF benchmarks. Still, they require critical reliability enhancements, as fail to pass the coverage tests at various steps on the prediction horizon. In this work, we propose a novel approach to PEPF, extending the state of the art neural networks ensembles based methods through conformal inference based techniques, deployed within an on-line recalibration procedure. Experiments have been conducted on multiple market regions, achieving day-ahead forecasts with improved hourly coverage and stable probabilistic scores.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 2生成状態におけるステアリングの共有性

Shareability of steering in 2-producible states ( http://arxiv.org/abs/2404.02725v1 )

ライセンス: Link先を確認
Qiu-Cheng Song, Travis J. Baker, Howard M. Wiseman, (参考訳) 量子ステアリング(Quantum steering)は、あるパーティ(Alice)が、別のパーティ(Bob)のシステムを異なる状態のアンサンブルに"ステアリング"することで、そのサブシステム上で異なる測定を行うことによって絡み合うことを証明している現象である。 本稿では,グローバル量子状態の一部で局所的な測定を行う$n$パーティのネットワークシナリオにおけるステアリングについて検討する。 標準的な量子光学アーキテクチャで簡単に実装できる3つのシナリオを導入し、ランダム$\frac{n}{2}$-ペア絡み、ランダムペア絡み、半ランダムペア絡みと呼ぶ。 本研究では,3つのシナリオで生じる2つの辺縁領域における状態のステアビリティについて検討し,異なる測定条件のセットに対して必要かつ十分なステアリング基準を解析的に導出する。 トリッキーなことに、半ランダムな対の絡み合わせ構造を用いることで、一方のパーティは、任意の大きさの$n$に対して、n-1$の他のパーティの1つを2つの測定値で操れる。 最後に,3つのシナリオにおけるネットワーク構成(3つないし4つのパーティ)を,異なる測定条件下で検討し,異なる2つのパーティの絡み合った状態によって生成する。

Quantum steering is the phenomenon whereby one party (Alice) proves entanglement by "steering'' the system of another party (Bob) into distinct ensembles of states, by performing different measurements on her subsystem. Here, we investigate steering in a network scenario involving $n$ parties, who each perform local measurements on part of a global quantum state, that is produced using only two-party entangled states, and mixing with ancillary separable states. We introduce three scenarios which can be straightforwardly implemented in standard quantum optics architecture, which we call random $\frac{n}{2}$-pair entanglement, random pair entanglement and semi-random pair entanglement. We study steerability of the states across two-party marginals which arise in the three scenarios, and derive analytically the necessary and sufficient steering criteria for different sets of measurement settings. Strikingly, using the semi-random pair entanglement construction, one party can steer every one of the $n-1$ other parties, for arbitrarily large $n$, using only two measurements. Finally, exploiting symmetry, we study various small network configurations (three or four parties) in the three scenarios, under different measurements and produced by different two-party entangled states.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 合成画像検出のための大規模視覚言語モデルのパワーの調和

Harnessing the Power of Large Vision Language Models for Synthetic Image Detection ( http://arxiv.org/abs/2404.02726v1 )

ライセンス: Link先を確認
Mamadou Keita, Wassim Hamidouche, Hassen Bougueffa, Abdenour Hadid, Abdelmalik Taleb-Ahmed, (参考訳) 近年,テキストから画像を生成することのできるモデルが出現し,テキスト記述からリアルな画像を生成する可能性が高まっている。 しかし、これらの進歩は、フェイクニュースやプロパガンダなどの誤解を招くコンテンツの作成など、これらの画像の潜在的な誤用に対する懸念も引き起こしている。 本研究では,合成画像識別における高度な視覚言語モデル(VLM)の有効性について検討した。 具体的には、合成画像検出のための最先端画像キャプションモデルをチューニングすることに焦点を当てる。 大規模VLMの頑健な理解能力を活用することにより,拡散モデルによる合成画像と真正画像の識別が目的である。 本研究では,BLIP-2 や ViTGPT2 などの視覚言語モデルの能力を活用し,合成画像検出の進歩に寄与する。 画像キャプションモデルの調整により、実世界の応用における合成画像の誤用に関する課題に対処する。 本稿では,合成画像検出の分野におけるVLMの役割について述べる。 コードとモデルはhttps://github.com/Mamadou-Keita/VLM-DETECTで見ることができる。

In recent years, the emergence of models capable of generating images from text has attracted considerable interest, offering the possibility of creating realistic images from text descriptions. Yet these advances have also raised concerns about the potential misuse of these images, including the creation of misleading content such as fake news and propaganda. This study investigates the effectiveness of using advanced vision-language models (VLMs) for synthetic image identification. Specifically, the focus is on tuning state-of-the-art image captioning models for synthetic image detection. By harnessing the robust understanding capabilities of large VLMs, the aim is to distinguish authentic images from synthetic images produced by diffusion-based models. This study contributes to the advancement of synthetic image detection by exploiting the capabilities of visual language models such as BLIP-2 and ViTGPT2. By tailoring image captioning models, we address the challenges associated with the potential misuse of synthetic images in real-world applications. Results described in this paper highlight the promising role of VLMs in the field of synthetic image detection, outperforming conventional image-based detection techniques. Code and models can be found at https://github.com/Mamadou-Keita/VLM-DETECT.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# ロボットにおける効果的な行動の教師なし学習

Unsupervised Learning of Effective Actions in Robotics ( http://arxiv.org/abs/2404.02728v1 )

ライセンス: Link先を確認
Marko Zaric, Jakob Hollenstein, Justus Piater, Erwan Renaudo, (参考訳) 意思決定に関連があり、効果的に実行可能な学習行動は、自律ロボット工学の重要な問題である。 ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。 操作タスクの解決に成功しているが、ディープラーニング手法には、メモリやトレーニングデータといった面での高コストに加えて、この能力も欠落している。 本稿では,連続的な動き空間を離散化し,その環境に異なる効果をもたらす「アクションプロトタイプ」を生成する教師なしアルゴリズムを提案する。 探索フェーズの後、アルゴリズムは自動的に効果の表現を構築し、アクションプロトタイプに動きをグループ化する。 提案手法は, シミュレーション階段上昇強化学習タスクにおいて評価され, 予備的な結果は, 収束速度, 最大報酬において, 結果が一様かつランダムにサンプリングされた離散化よりも優れていたことを示す。

Learning actions that are relevant to decision-making and can be executed effectively is a key problem in autonomous robotics. Current state-of-the-art action representations in robotics lack proper effect-driven learning of the robot's actions. Although successful in solving manipulation tasks, deep learning methods also lack this ability, in addition to their high cost in terms of memory or training data. In this paper, we propose an unsupervised algorithm to discretize a continuous motion space and generate "action prototypes", each producing different effects in the environment. After an exploration phase, the algorithm automatically builds a representation of the effects and groups motions into action prototypes, where motions more likely to produce an effect are represented more than those that lead to negligible changes. We evaluate our method on a simulated stair-climbing reinforcement learning task, and the preliminary results show that our effect driven discretization outperforms uniformly and randomly sampled discretizations in convergence speed and maximum reward.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 隠れたニューロンを持つ反復ネットワークにおける学習シーケンスインタトラクター

Learning Sequence Attractors in Recurrent Networks with Hidden Neurons ( http://arxiv.org/abs/2404.02729v1 )

ライセンス: Link先を確認
Yao Lu, Si Wu, (参考訳) 脳は、時間的シーケンス情報を処理することを目的としている。 脳がどのようにシーケンス記憶を保存し、取得するかは、まだ明らかになっていない。 本稿では,2次ニューロンの繰り返しネットワークが,予め定義されたパターン配列を格納し,それらを頑健に検索するためにシーケンスアトラクタを学習する方法について検討する。 任意のパターン配列を格納するには,シーケンス記憶を間接的に表示する場合においても,隠されたニューロンを含む必要があることを示す。 隠れたニューロンを持つネットワーク内のシーケンスアトラクタを学習するための局所学習アルゴリズムを開発した。 このアルゴリズムは収束し、シーケンサーにつながることが証明されている。 ネットワークモデルは、合成および実世界のデータセット上で、シーケンスを頑健に保存し、取得できることを実証する。 この研究は、脳内のシーケンス記憶と時間情報処理の理解に新たな洞察を与えてくれることを願っている。

The brain is targeted for processing temporal sequence information. It remains largely unclear how the brain learns to store and retrieve sequence memories. Here, we study how recurrent networks of binary neurons learn sequence attractors to store predefined pattern sequences and retrieve them robustly. We show that to store arbitrary pattern sequences, it is necessary for the network to include hidden neurons even though their role in displaying sequence memories is indirect. We develop a local learning algorithm to learn sequence attractors in the networks with hidden neurons. The algorithm is proven to converge and lead to sequence attractors. We demonstrate that the network model can store and retrieve sequences robustly on synthetic and real-world datasets. We hope that this study provides new insights in understanding sequence memory and temporal information processing in the brain.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# スイニングトランスとPixel-focus損失によるイベントカメラのデモ

Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss ( http://arxiv.org/abs/2404.02731v1 )

ライセンス: Link先を確認
Yunfan Lu, Yijie Xu, Wenzong Ma, Weiyu Guo, Hui Xiong, (参考訳) 近年の研究では、RGB領域に集中したイベントカメラによる高品質イメージングの改善が注目されている。 しかしながら、これらの進歩は、RAWドメインにおけるイベントカメラのセンサー設計の固有の欠陥によって引き起こされる固有の課題をしばしば無視する。 具体的には、このセンサ設計により画素値が部分的に失われ、分解などのRAWドメインプロセスに新たな課題が生じる。 RAW領域のほとんどの研究は、各ピクセルが値を含むという前提に基づいており、これらの手法をイベントカメラに簡単に適応させることが問題となる。 そこで本研究では,RAW領域処理における画素値の欠落を解消するための,Swin-Transformerベースのバックボーンと画素焦点損失関数を提案する。 我々のコアモチベーションは、RAWドメイン処理のためのRGBドメインから、汎用的で広く適用可能な基礎モデルを洗練し、画像全体の適用性を拡大することである。 提案手法は,マルチスケール処理とスペース・ツー・ディープス技術を利用して,効率の確保と計算複雑性の低減を図る。 また、ネットワーク微細チューニングのためのPixel-focus Loss関数を提案し、トレーニング損失の長期分布の発見に基づいて、ネットワーク収束を改善する。 提案手法はMIPIデモザイクチャレンジデータセット上で検証を行い,その有効性を確認した。 すべてのコードとトレーニングされたモデルはここでリリースされている。

Recent research has highlighted improvements in high-quality imaging guided by event cameras, with most of these efforts concentrating on the RGB domain. However, these advancements frequently neglect the unique challenges introduced by the inherent flaws in the sensor design of event cameras in the RAW domain. Specifically, this sensor design results in the partial loss of pixel values, posing new challenges for RAW domain processes like demosaicing. The challenge intensifies as most research in the RAW domain is based on the premise that each pixel contains a value, making the straightforward adaptation of these methods to event camera demosaicing problematic. To end this, we present a Swin-Transformer-based backbone and a pixel-focus loss function for demosaicing with missing pixel values in RAW domain processing. Our core motivation is to refine a general and widely applicable foundational model from the RGB domain for RAW domain processing, thereby broadening the model's applicability within the entire imaging process. Our method harnesses multi-scale processing and space-to-depth techniques to ensure efficiency and reduce computing complexity. We also proposed the Pixel-focus Loss function for network fine-tuning to improve network convergence based on our discovery of a long-tailed distribution in training loss. Our method has undergone validation on the MIPI Demosaic Challenge dataset, with subsequent analytical experimentation confirming its efficacy. All code and trained models are released here: https://github.com/yunfanLu/ev-demosaic
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# InstantStyle: テキスト・ツー・イメージ生成におけるスタイル保存に向けたフリーランチ

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation ( http://arxiv.org/abs/2404.02733v1 )

ライセンス: Link先を確認
Haofan Wang, Qixun Wang, Xu Bai, Zekui Qin, Anthony Chen, (参考訳) 教師なし拡散に基づくモデルは、画像のパーソナライゼーションとカスタマイズの領域において大きな可能性を証明している。 しかし、この顕著な進歩にもかかわらず、現在のモデルは、スタイル一貫性のある画像生成において、いくつかの複雑な課題に悩まされ続けている。 第一に、スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造など多岐にわたる要素を包含している。 第二に、インバージョンベースの手法はスタイル劣化の傾向があり、しばしば細かな詳細が失われる。 最後に、アダプタベースのアプローチでは、スタイル強度とテキスト制御性のバランスをとるために、各参照画像に対して綿密な重み調整が必要となることが多い。 本稿では,いくつかの観測結果から開始するが,見落とされがちな観測結果について考察する。 InstantStyleは2つの主要な戦略の実装を通じてこれらの問題に対処するように設計されたフレームワークです。 1) 特徴空間内の参照画像からスタイルと内容を分離する簡単なメカニズムであって、同一空間内の特徴を互いに付加または減算することができるという仮定に基づいている。 2) 参照画像の特徴をスタイル固有のブロックに限定的に注入することにより,スタイルリークを防止し,よりパラメータの多いデザインを特徴付けるような重み調整の必要性を解消し,スタイルの強度とテキスト要素の制御性との最適なバランスを図りながら,優れた視覚的スタイライズ結果を示す。 私たちのコードはhttps://github.com/InstantStyle/InstantStyleで利用可能です。

Tuning-free diffusion-based models have demonstrated significant potential in the realm of image personalization and customization. However, despite this notable progress, current models continue to grapple with several complex challenges in producing style-consistent image generation. Firstly, the concept of style is inherently underdetermined, encompassing a multitude of elements such as color, material, atmosphere, design, and structure, among others. Secondly, inversion-based methods are prone to style degradation, often resulting in the loss of fine-grained details. Lastly, adapter-based approaches frequently require meticulous weight tuning for each reference image to achieve a balance between style intensity and text controllability. In this paper, we commence by examining several compelling yet frequently overlooked observations. We then proceed to introduce InstantStyle, a framework designed to address these issues through the implementation of two key strategies: 1) A straightforward mechanism that decouples style and content from reference images within the feature space, predicated on the assumption that features within the same space can be either added to or subtracted from one another. 2) The injection of reference image features exclusively into style-specific blocks, thereby preventing style leaks and eschewing the need for cumbersome weight tuning, which often characterizes more parameter-heavy designs.Our work demonstrates superior visual stylization outcomes, striking an optimal balance between the intensity of style and the controllability of textual elements. Our codes will be available at https://github.com/InstantStyle/InstantStyle.
翻訳日:2024-04-04 17:21:13 公開日:2024-04-03
# 資源制限設定におけるMRI画像分割のための適応親和性に基づく一般化

Adaptive Affinity-Based Generalization For MRI Imaging Segmentation Across Resource-Limited Settings ( http://arxiv.org/abs/2404.02738v1 )

ライセンス: Link先を確認
Eddardaa B. Loussaief, Mohammed Ayad, Domenc Puig, Hatem A. Rashwan, (参考訳) 医用画像セグメンテーションのための多様なデータソースの共同利用は、データ不均一性、ドメインシフト、データ品質の相違といった課題に対処することを目的として、重要な研究領域として浮上している。 複数のデータドメインからの情報を統合することは、モデルの一般化性と適応性を改善することを約束している。 しかし、このアプローチは、しばしばかなりの計算資源を必要とし、その実用性を妨げている。 これに対し、知識蒸留(KD)は解決策として注目されている。 KDは、よりリソース集約的なモデルの振舞いをエミュレートするために軽量モデルを訓練することで、性能を維持しながら計算負担を軽減する。 本稿では、医用画像分割のための軽量で一般化可能なモデルを開発し、データ統合の課題を効果的に処理する必要性に対処する。 提案手法では, 適応親和性に基づく, カーネルベースの蒸留を, 機能間のスタイル表現をキャプチャ可能なグラム行列を通じてシームレスに組み合わせた, 新たな関係ベース知識フレームワークを提案する。 この手法は、教師モデルの特徴表現を正確に再現し、ドメインシフトやデータの異質性に直面しても堅牢なパフォーマンスを促進する。 革新的アプローチを検証するために,我々は公開されている複数ソースのMRIデータについて実験を行った。 その結果,軽量ネットワークを用いたセグメンテーション性能の大幅な向上が示された。 特に,本手法は,推測時間とストレージ使用量の両方を削減し,リアルタイムな医用画像分割のための実用的で効率的な解であることを示す。

The joint utilization of diverse data sources for medical imaging segmentation has emerged as a crucial area of research, aiming to address challenges such as data heterogeneity, domain shift, and data quality discrepancies. Integrating information from multiple data domains has shown promise in improving model generalizability and adaptability. However, this approach often demands substantial computational resources, hindering its practicality. In response, knowledge distillation (KD) has garnered attention as a solution. KD involves training light-weight models to emulate the behavior of more resource-intensive models, thereby mitigating the computational burden while maintaining performance. This paper addresses the pressing need to develop a lightweight and generalizable model for medical imaging segmentation that can effectively handle data integration challenges. Our proposed approach introduces a novel relation-based knowledge framework by seamlessly combining adaptive affinity-based and kernel-based distillation through a gram matrix that can capture the style representation across features. This methodology empowers the student model to accurately replicate the feature representations of the teacher model, facilitating robust performance even in the face of domain shift and data heterogeneity. To validate our innovative approach, we conducted experiments on publicly available multi-source prostate MRI data. The results demonstrate a significant enhancement in segmentation performance using lightweight networks. Notably, our method achieves this improvement while reducing both inference time and storage usage, rendering it a practical and efficient solution for real-time medical imaging segmentation.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# 個人と集団の行動の混合によるアウト・オブ・ラインモビリティの予測

Mixing Individual and Collective Behaviours to Predict Out-of-Routine Mobility ( http://arxiv.org/abs/2404.02740v1 )

ライセンス: Link先を確認
Sebastiano Bontorin, Simone Centellegher, Riccardo Gallotti, Luca Pappalardo, Bruno Lepri, Massimiliano Luca, (参考訳) 都市デザイン、交通渋滞、疫病管理、移住動態など、様々な社会的課題に対処するためには、人的変位の予測が不可欠である。 ディープラーニングやマルコフモデルのような予測モデルは、個々のモビリティに関する洞察を提供するが、それらはしばしば非ルーチン的な振る舞いに苦しむ。 本研究では,個人と集団の移動行動を動的に統合し,集団知能を活用して予測精度を向上させる手法を提案する。 アメリカの3つの都市における何百万ものプライバシー保護トラジェクトリのモデルを評価することで、より高度なディープラーニング手法を超越した、ルーチン外モビリティの予測における優れたパフォーマンスを実証する。 空間分析は、集合行動がモビリティに強く影響を及ぼす関心点の密度の高い都市部におけるモデルの有効性を強調している。 新型コロナウイルス(COVID-19)のパンデミックのような破壊的なイベントの間、私たちのモデルは個人ベースのモデルとは異なり、予測能力を保持します。 個人的行動と集団的行動のギャップを埋めることによって、我々のアプローチは透明性と正確な予測を提供し、現代のモビリティ問題に対処するために不可欠である。

Predicting human displacements is crucial for addressing various societal challenges, including urban design, traffic congestion, epidemic management, and migration dynamics. While predictive models like deep learning and Markov models offer insights into individual mobility, they often struggle with out-of-routine behaviours. Our study introduces an approach that dynamically integrates individual and collective mobility behaviours, leveraging collective intelligence to enhance prediction accuracy. Evaluating the model on millions of privacy-preserving trajectories across three US cities, we demonstrate its superior performance in predicting out-of-routine mobility, surpassing even advanced deep learning methods. Spatial analysis highlights the model's effectiveness near urban areas with a high density of points of interest, where collective behaviours strongly influence mobility. During disruptive events like the COVID-19 pandemic, our model retains predictive capabilities, unlike individual-based models. By bridging the gap between individual and collective behaviours, our approach offers transparent and accurate predictions, crucial for addressing contemporary mobility challenges.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# LiDAR4D:新しい時空ビューLiDAR合成のための動的ニューラルネットワーク

LiDAR4D: Dynamic Neural Fields for Novel Space-time View LiDAR Synthesis ( http://arxiv.org/abs/2404.02742v1 )

ライセンス: Link先を確認
Zehan Zheng, Fan Lu, Weiyi Xue, Guang Chen, Changjun Jiang, (参考訳) ニューラル・ラジオアンス・フィールド(NeRF)はイメージ・ノベル・ビュー・シンセサイザー(NVS)において勝利を収めてきたが、LiDAR NVSはいまだほとんど探索されていない。 従来のLiDAR NVS法は、LiDAR点雲の動的性質と大規模再構成問題を無視しながら、イメージNVS法から単純なシフトを用いる。 そこで我々は,新しい時空LiDARビュー合成のための微分可能なLiDAR専用フレームワークLiDAR4Dを提案する。 空間幅と大規模特性を考慮した4次元ハイブリッド表現を多平面・格子特徴と組み合わせて設計し, 粗大から粗大に効率的な再構成を実現する。 さらに,点雲から導出される幾何的制約を導入し,時間的整合性を改善する。 LiDAR点雲の現実的な合成のために、領域横断パターンを保存するために、レイドロップ確率のグローバル最適化を取り入れる。 KITTI-360とNuScenesデータセットの大規模な実験は、幾何学的認識と時間一貫性のある動的再構成を実現する上で、我々の手法の優位性を実証している。 コードはhttps://github.com/ispc-lab/LiDAR4Dで入手できる。

Although neural radiance fields (NeRFs) have achieved triumphs in image novel view synthesis (NVS), LiDAR NVS remains largely unexplored. Previous LiDAR NVS methods employ a simple shift from image NVS methods while ignoring the dynamic nature and the large-scale reconstruction problem of LiDAR point clouds. In light of this, we propose LiDAR4D, a differentiable LiDAR-only framework for novel space-time LiDAR view synthesis. In consideration of the sparsity and large-scale characteristics, we design a 4D hybrid representation combined with multi-planar and grid features to achieve effective reconstruction in a coarse-to-fine manner. Furthermore, we introduce geometric constraints derived from point clouds to improve temporal consistency. For the realistic synthesis of LiDAR point clouds, we incorporate the global optimization of ray-drop probability to preserve cross-region patterns. Extensive experiments on KITTI-360 and NuScenes datasets demonstrate the superiority of our method in accomplishing geometry-aware and time-consistent dynamic reconstruction. Codes are available at https://github.com/ispc-lab/LiDAR4D.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# テキストと画像の拡散モデルにおける推論が煩雑になる

Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2404.02747v1 )

ライセンス: Link先を確認
Wentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber, (参考訳) 本研究では,テキスト条件拡散モデルにおける推論におけるクロスアテンションの役割について検討する。 クロスアテンション出力は、わずかな推論ステップの後に一定点に収束する。 したがって、収束の時点は自然に推論過程全体を2段階に分割する: 最初のセマンティクス計画段階、その間、モデルはテキスト指向の視覚的意味論を計画するクロスアテンションに依存し、その後のフィデリティ改善段階、そしてモデルが以前に計画されたセマンティクスから画像を生成しようとする。 驚くべきことに、忠実度改善段階のテキスト条件を無視することは、計算の複雑さを減らすだけでなく、モデルの性能も維持する。 これにより、TGATEと呼ばれる単純でトレーニングなしの手法が効率よく生成され、収束するとクロスアテンション出力をキャッシュし、残りの推論ステップでそれを固定する。 MS-COCO検証セットに関する実証研究により,その有効性が確認された。 TGATEのソースコードはhttps://github.com/HaozheLiu-ST/T-GATEで公開されている。

This study explores the role of cross-attention during inference in text-conditional diffusion models. We find that cross-attention outputs converge to a fixed point after few inference steps. Accordingly, the time point of convergence naturally divides the entire inference process into two stages: an initial semantics-planning stage, during which, the model relies on cross-attention to plan text-oriented visual semantics, and a subsequent fidelity-improving stage, during which the model tries to generate images from previously planned semantics. Surprisingly, ignoring text conditions in the fidelity-improving stage not only reduces computation complexity, but also maintains model performance. This yields a simple and training-free method called TGATE for efficient generation, which caches the cross-attention output once it converges and keeps it fixed during the remaining inference steps. Our empirical study on the MS-COCO validation set confirms its effectiveness. The source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# 問題硬度とQUBO特性の関係の検討

Investigating the Relation Between Problem Hardness and QUBO Properties ( http://arxiv.org/abs/2404.02751v1 )

ライセンス: Link先を確認
Thore Gerlach, Sascha Mücke, (参考訳) 様々な科学的・工業的応用に不可欠な組合せ最適化問題は、その複雑さと計算の難しさにおいて大きく異なる。 量子アニーリングにおけるQUBOの中心的役割により、これらの問題を準拘束的二項最適化(QUBO)に変換することは近年、かなりの研究の注目を集めている。 この研究は、問題のプロパティ間の関係にいくつかの光を当てることを目的としている。 特に,QUBO定式化のスペクトルギャップが,量子コンピュータ上でどのように効率的に解けるかに影響を及ぼすため,元の問題とどのように相関するかを検討する。 機械学習からよく知られた2つの問題、すなわちクラスタリングとサポートベクトルマシン(SVM)のトレーニングから、それぞれのQUBOのスペクトルギャップについて分析する。 経験的評価は興味深い洞察を与え、クラスタリングQUBOインスタンスのスペクトルギャップがデータ分離可能性と正の相関を示す一方で、SVM QUBOでは逆が真であることを示す。

Combinatorial optimization problems, integral to various scientific and industrial applications, often vary significantly in their complexity and computational difficulty. Transforming such problems into Quadratic Unconstrained Binary Optimization (QUBO) has regained considerable research attention in recent decades due to the central role of QUBO in Quantum Annealing. This work aims to shed some light on the relationship between the problems' properties. In particular, we examine how the spectral gap of the QUBO formulation correlates with the original problem, since it has an impact on how efficiently it can be solved on quantum computers. We analyze two well-known problems from Machine Learning, namely Clustering and Support Vector Machine (SVM) training, regarding the spectral gaps of their respective QUBO counterparts. An empirical evaluation provides interesting insights, showing that the spectral gap of Clustering QUBO instances positively correlates with data separability, while for SVM QUBO the opposite is true.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# 複数タスクの長期分布からの連続的学習

Continual Learning of Numerous Tasks from Long-tail Distributions ( http://arxiv.org/abs/2404.02754v1 )

ライセンス: Link先を確認
Liwei Kang, Wee Sun Lee, (参考訳) 継続学習は、人工知能と機械学習研究の重要な側面であり、以前獲得した知識を維持しながら新しいタスクを学習し、適応するモデルを開発することに焦点を当てている。 既存の連続学習アルゴリズムは、通常、一定の大きさの少数のタスクを伴い、現実世界の学習シナリオを正確に表現しないことがある。 本稿では,タスクサイズが長いタスク分布から引き出されたタスクを多用した連続学習アルゴリズムの性能について検討する。 そこで我々は、既存のアルゴリズムの性能を評価するために、1つの合成データセットと2つの実世界の連続学習データセットを設計する。 さらに,Adamオプティマイザにおいて,連続学習における見過ごされた要因,最適化状態,第1モーメントと第2モーメントについて検討し,連続学習の性能向上にどのように使用できるかを検討した。 本稿では,Adamにおける最適化状態の再利用手法を提案する。 提案手法は,既存のほとんどの連続学習アルゴリズムと互換性があり,少ない計算量やメモリコストで忘れを効果的に減らし,特に長いタスクシーケンスにおいて,既存の連続学習アルゴリズムをさらに改善できることを実証する。

Continual learning, an important aspect of artificial intelligence and machine learning research, focuses on developing models that learn and adapt to new tasks while retaining previously acquired knowledge. Existing continual learning algorithms usually involve a small number of tasks with uniform sizes and may not accurately represent real-world learning scenarios. In this paper, we investigate the performance of continual learning algorithms with a large number of tasks drawn from a task distribution that is long-tail in terms of task sizes. We design one synthetic dataset and two real-world continual learning datasets to evaluate the performance of existing algorithms in such a setting. Moreover, we study an overlooked factor in continual learning, the optimizer states, e.g. first and second moments in the Adam optimizer, and investigate how it can be used to improve continual learning performance. We propose a method that reuses the optimizer states in Adam by maintaining a weighted average of the second moments from previous tasks. We demonstrate that our method, compatible with most existing continual learning algorithms, effectively reduces forgetting with only a small amount of additional computational or memory costs, and provides further improvements on existing continual learning algorithms, particularly in a long-tail task sequence.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# DIBS: 偽バウンダリの強化とオンラインリファインメントによる未ラベルビデオによる高精細度ビデオキャプションの強化

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement ( http://arxiv.org/abs/2404.02755v1 )

ライセンス: Link先を確認
Hao Wu, Huabin Liu, Yu Qiao, Xiao Sun, (参考訳) Dive Into the BoundarieS (DIBS) は高密度ビデオキャプション(DVC)のための新しい事前学習フレームワークであり、未ラベルビデオから生成されたイベントキャプションの品質と関連する擬似イベントバウンダリの改善を詳述する。 多様な大言語モデル(LLM)の能力を活用して、豊富なDVC指向のキャプション候補を生成し、多様性、事象中心性、時間的順序付け、コヒーレンスを考慮し、厳密に設計されたいくつかの目的の下で、対応する擬似境界を最適化する。 さらに、トレーニング中に擬似境界の質を反復的に改善する新しいオンライン境界改善戦略を導入する。 提案手法の有効性を検討するため, 総合的な実験を行った。 HowTo100Mのようなラベルなしのビデオデータを活用することで、YouCook2やActivityNetのような標準のDVCデータセットに顕著な進歩を遂げます。 これまでの最先端のVid2Seqよりも優れており、Vid2Seqが事前トレーニングに使用している未ラベルのビデオデータのわずか0.4%で達成しています。

We present Dive Into the BoundarieS (DIBS), a novel pretraining framework for dense video captioning (DVC), that elaborates on improving the quality of the generated event captions and their associated pseudo event boundaries from unlabeled videos. By leveraging the capabilities of diverse large language models (LLMs), we generate rich DVC-oriented caption candidates and optimize the corresponding pseudo boundaries under several meticulously designed objectives, considering diversity, event-centricity, temporal ordering, and coherence. Moreover, we further introduce a novel online boundary refinement strategy that iteratively improves the quality of pseudo boundaries during training. Comprehensive experiments have been conducted to examine the effectiveness of the proposed technique components. By leveraging a substantial amount of unlabeled video data, such as HowTo100M, we achieve a remarkable advancement on standard DVC datasets like YouCook2 and ActivityNet. We outperform the previous state-of-the-art Vid2Seq across a majority of metrics, achieving this with just 0.4% of the unlabeled video data used for pre-training by Vid2Seq.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# スパースポイントクラウドからの教師なし職業学習

Unsupervised Occupancy Learning from Sparse Point Cloud ( http://arxiv.org/abs/2404.02759v1 )

ライセンス: Link先を確認
Amine Ouasfi, Adnane Boukhayma, (参考訳) Inlicit Neural Representationsは、複雑なデータモダリティをキャプチャする強力なフレームワークとして有名になり、3D形状から画像やオーディオまで幅広い範囲に及んでいる。 3次元形状表現の領域内では、ニューラルネットワーク符号距離関数(SDF)は複雑な形状幾何を忠実に符号化する顕著な可能性を示している。 しかし、3Dポイントの雲からSDFを学習することは、根底的な真実の監督がなければ、非常に難しい課題である。 本稿では,スパース入力から学習しやすいため,SDFの代わりに占有場を推定する手法を提案する。 差分に基づく不確実性尺度を用いて、占有関数の決定境界から差分サンプリングを行い、入力点雲を用いてサンプル境界点を監督する。 さらに,入力点雲におけるエントロピーを最大化しながら,占有関数を最小のエントロピー場に向けてバイアスすることで,トレーニングの初期段階における最適化プロセスを安定化する。 提案手法の有効性を概説し,ベースラインに対する暗黙的形状推論の改善と,合成データと実データを用いた最先端技術について述べる。

Implicit Neural Representations have gained prominence as a powerful framework for capturing complex data modalities, encompassing a wide range from 3D shapes to images and audio. Within the realm of 3D shape representation, Neural Signed Distance Functions (SDF) have demonstrated remarkable potential in faithfully encoding intricate shape geometry. However, learning SDFs from 3D point clouds in the absence of ground truth supervision remains a very challenging task. In this paper, we propose a method to infer occupancy fields instead of SDFs as they are easier to learn from sparse inputs. We leverage a margin-based uncertainty measure to differentially sample from the decision boundary of the occupancy function and supervise the sampled boundary points using the input point cloud. We further stabilize the optimization process at the early stages of the training by biasing the occupancy function towards minimal entropy fields while maximizing its entropy at the input point cloud. Through extensive experiments and evaluations, we illustrate the efficacy of our proposed method, highlighting its capacity to improve implicit shape inference with respect to baselines and the state-of-the-art using synthetic and real data.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# AQuA -- LLMを用いたオンラインディスカッションにおける専門家と非専門家の考察

AQuA -- Combining Experts' and Non-Experts' Views To Assess Deliberation Quality in Online Discussions Using LLMs ( http://arxiv.org/abs/2404.02761v1 )

ライセンス: Link先を確認
Maike Behrendt, Stefan Sylvius Wagner, Marc Ziegele, Lena Wilms, Anke Stoll, Dominique Heinbach, Stefan Harmeling, (参考訳) 政治オンライン議論におけるコントリビューションの質の測定は、熟考研究とコンピュータ科学において不可欠である。 オンラインの議論の質を評価するためのさまざまな指標が研究によって特定され、深層学習の進歩により、これらの手段の自動化が実現可能になった。 特定の品質指標の分析に焦点が当てられている研究もあるが、様々な熟考的な側面を取り入れた総合的な品質スコアが好まれる。 本稿では,各議論記事の複数の指標から,統一された熟考品質スコアを算出する付加的なスコアであるAQuAを紹介する。 他の特異点とは異なり、AQuAはコメントに存在する熟考的な側面に関する情報を保持し、モデルの透明性を高める。 我々は,20の熟考指標に対する適応モデルを開発し,専門家のアノテーションと認識された熟考度との相関係数を非専門家によって計算し,各指標を1つの熟考スコアに重み付けする。 AQuAスコアは、事前トレーニング済みのアダプタから簡単に計算でき、トレーニング中に見られていない他のデータセットのアノテーションとよく一致します。 専門家と非専門家のアノテーションの分析は、社会科学文学における理論的発見を裏付けるものである。

Measuring the quality of contributions in political online discussions is crucial in deliberation research and computer science. Research has identified various indicators to assess online discussion quality, and with deep learning advancements, automating these measures has become feasible. While some studies focus on analyzing specific quality indicators, a comprehensive quality score incorporating various deliberative aspects is often preferred. In this work, we introduce AQuA, an additive score that calculates a unified deliberative quality score from multiple indices for each discussion post. Unlike other singular scores, AQuA preserves information on the deliberative aspects present in comments, enhancing model transparency. We develop adapter models for 20 deliberative indices, and calculate correlation coefficients between experts' annotations and the perceived deliberativeness by non-experts to weigh the individual indices into a single deliberative score. We demonstrate that the AQuA score can be computed easily from pre-trained adapters and aligns well with annotations on other datasets that have not be seen during training. The analysis of experts' vs. non-experts' annotations confirms theoretical findings in the social science literature.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# FPT:Few-shot Readabilityアセスメントのための機能プロンプトチューニング

FPT: Feature Prompt Tuning for Few-shot Readability Assessment ( http://arxiv.org/abs/2404.02772v1 )

ライセンス: Link先を確認
Ziyang Wang, Sanwoo Lee, Hsiu-Yuan Huang, Yunfang Wu, (参考訳) プロンプトに基づく手法は、ほとんどの数発のテキスト分類タスクにおいて有望な結果を得た。 しかし,可読性評価タスクにおいては,従来のプロンプト手法では言語知識が欠如しており,すでに必須であることが証明されている。 さらに,従来の言語機能を活用した研究は,いくつかの場面で非破壊的性能を示し,モデル性能を損なう可能性があり,これらの問題に対処するために,FPT(Feature Prompt Tuning)と呼ばれる,豊富な言語知識を取り入れた新しいプロンプトベースのチューニングフレームワークを提案する。 具体的には,テキストから言語的特徴を抽出し,訓練可能なソフトプロンプトに組み込む。 さらに、カテゴリ間の類似度ランキング順序を調整するための新しい損失関数を考案する。 実験結果から,提案手法のFTPは,事前のプロンプトベースチューニング手法よりも優れた性能向上を示すだけでなく,言語的特徴を取り入れた先行手法よりも優れていることが示された。 また,提案手法は大きな言語モデルであるgpt-3.5-turbo-16kよりも優れている。 提案手法は,言語関連タスクへの言語的特徴の適応方法に光を当てる,即時チューニングのための新しいアーキテクチャを確立する。

Prompt-based methods have achieved promising results in most few-shot text classification tasks. However, for readability assessment tasks, traditional prompt methods lackcrucial linguistic knowledge, which has already been proven to be essential. Moreover, previous studies on utilizing linguistic features have shown non-robust performance in few-shot settings and may even impair model performance.To address these issues, we propose a novel prompt-based tuning framework that incorporates rich linguistic knowledge, called Feature Prompt Tuning (FPT). Specifically, we extract linguistic features from the text and embed them into trainable soft prompts. Further, we devise a new loss function to calibrate the similarity ranking order between categories. Experimental results demonstrate that our proposed method FTP not only exhibits a significant performance improvement over the prior best prompt-based tuning approaches, but also surpasses the previous leading methods that incorporate linguistic features. Also, our proposed model significantly outperforms the large language model gpt-3.5-turbo-16k in most cases. Our proposed method establishes a new architecture for prompt tuning that sheds light on how linguistic features can be easily adapted to linguistic-related tasks.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# Federated Computing -- ビルディングブロック,拡張,システムに関する調査

Federated Computing -- Survey on Building Blocks, Extensions and Systems ( http://arxiv.org/abs/2404.02779v1 )

ライセンス: Link先を確認
René Schwermer, Ruben Mayer, Hans-Arno Jacobsen, (参考訳) データの量と感度の増加に対応するため、従来の集中型コンピューティングモデルは、データセキュリティ違反や規制上のハードルといった課題に直面している。 フェデレートコンピューティング(FC)は、個々のデータのプライバシーを損なうことなく協調的な処理を可能にすることで、これらの懸念に対処する。 これはデバイスによる分散ネットワークを通じて実現され、それぞれがデータのコントロールを保持しながら、集合計算に参加する。 FCの背後にあるモチベーションは、社会的意味を包含する技術的な考慮を超えて拡張される。 責任あるAIと倫理的なデータプラクティスの必要性が増すにつれ、FCはユーザーの権限とデータの主権の原則に沿っている。 FCはフェデレーテッド・ラーニング(FL)とフェデレーテッド・アナリティクス(FA)で構成されている。 FCシステムは時間が経つにつれてより複雑になり、現在ではその移動部品を記述する明確な定義や分類が欠如している。 現在の調査では、ドメイン固有のFLのユースケースをキャプチャし、FCパイプライン内の個々のコンポーネントを個別に記述したり、分離したり、発行された論文の数について定量的に概説している。 本研究は, 基本構造, 拡張, アーキテクチャ, 環境, モチベーションを有するFCシステムの基盤構造を蒸留するための150以上の論文を調査する。 FLとFAのシステムを個別に捉え、両者のユニークな違いを指摘する。

In response to the increasing volume and sensitivity of data, traditional centralized computing models face challenges, such as data security breaches and regulatory hurdles. Federated Computing (FC) addresses these concerns by enabling collaborative processing without compromising individual data privacy. This is achieved through a decentralized network of devices, each retaining control over its data, while participating in collective computations. The motivation behind FC extends beyond technical considerations to encompass societal implications. As the need for responsible AI and ethical data practices intensifies, FC aligns with the principles of user empowerment and data sovereignty. FC comprises of Federated Learning (FL) and Federated Analytics (FA). FC systems became more complex over time and they currently lack a clear definition and taxonomy describing its moving pieces. Current surveys capture domain-specific FL use cases, describe individual components in an FC pipeline individually or decoupled from each other, or provide a quantitative overview of the number of published papers. This work surveys more than 150 papers to distill the underlying structure of FC systems with their basic building blocks, extensions, architecture, environment, and motivation. We capture FL and FA systems individually and point out unique difference between those two.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# 1光子干渉量子セキュア直接通信

One-photon-interference quantum secure direct communication ( http://arxiv.org/abs/2404.02780v1 )

ライセンス: Link先を確認
Xiangjie Li, Min Wang, Xingbo Pan, Yunrong Zhang, Guilu Long, (参考訳) 量子セキュア直接通信(quantum secure direct communication、QSDC)は、量子状態を用いて秘密メッセージを直接送信する量子通信パラダイムである。 測定デバイス非依存(MDI)QSDCプロトコルは、測定デバイスに関連するセキュリティの抜け穴を取り除くことができる。 MDI-QSDCプロトコルの実用性と性能を向上させるため,量子メモリ,理想的な単一光子源,あるいは絡み合った光源の必要性を超越した1光子干渉型MDI QSDC(OPI-QSDC)プロトコルを提案する。 OPI-QSDCプロトコルのセキュリティについても,量子通信路理論を用いて解析を行った。 さらに,隣接ノードから送信される量子状態は単一光子干渉で接続されており,点間QSDCの通信距離を拡大する可能性を示すため,通常の準備・測定プロトコルの距離を2倍にすることができる。

Quantum secure direct communication (QSDC) is a quantum communication paradigm that transmits confidential messages directly using quantum states. Measurement-device-independent (MDI) QSDC protocols can eliminate the security loopholes associated with measurement devices. To enhance the practicality and performance of MDI-QSDC protocols, we propose a one-photon-interference MDI QSDC (OPI-QSDC) protocol which transcends the need for quantum memory, ideal single-photon sources, or entangled light sources. The security of our OPI-QSDC protocol has also been analyzed using quantum wiretap channel theory. Furthermore, our protocol could double the distance of usual prepare-and-measure protocols, since quantum states sending from adjacent nodes are connected with single-photon interference, which demonstrates its potential to extend the communication distance for point-to-point QSDC.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# メタラーニングによるドメインの一般化:サーベイ

Domain Generalization through Meta-Learning: A Survey ( http://arxiv.org/abs/2404.02785v1 )

ライセンス: Link先を確認
Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt, (参考訳) ディープニューラルネットワーク(DNN)は人工知能に革命をもたらしたが、現実のアプリケーションでは避けられないドメインシフトのために一般的なシナリオであるOOD(out-of-distriion)データに直面すると、パフォーマンスが低下することが多い。 この制限は、トレーニングデータとテストデータが同じ分布を共有しているという一般的な仮定に由来する。 大量のデータと計算能力を持つにもかかわらず、DNNは分散シフトやラベル付きデータの制限に苦しむため、様々なタスクや領域にわたって過度に適合し、一般化が不十分になる。 メタラーニングは、様々なタスクにまたがる伝達可能な知識を高速な適応のために取得し、各タスクをスクラッチから学習する必要をなくし、有望なアプローチを示す。 本調査はメタラーニングの領域を掘り下げ,ドメインの一般化への貢献に焦点をあてたものである。 まず,ドメイン一般化のためのメタラーニングの概念を明らかにし,特徴抽出戦略と分類器学習手法に基づく新しい分類法を導入する。 既存の方法と基礎理論の徹底的なレビューを通じて、この分野の基礎を概観する。 本調査は,将来的な研究方向性に関する実践的洞察と情報的考察を提供し,ドメイン一般化のためのメタラーニングにおける将来的なイノベーションの道を開くものである。

Deep neural networks (DNNs) have revolutionized artificial intelligence but often lack performance when faced with out-of-distribution (OOD) data, a common scenario due to the inevitable domain shifts in real-world applications. This limitation stems from the common assumption that training and testing data share the same distribution-an assumption frequently violated in practice. Despite their effectiveness with large amounts of data and computational power, DNNs struggle with distributional shifts and limited labeled data, leading to overfitting and poor generalization across various tasks and domains. Meta-learning presents a promising approach by employing algorithms that acquire transferable knowledge across various tasks for fast adaptation, eliminating the need to learn each task from scratch. This survey paper delves into the realm of meta-learning with a focus on its contribution to domain generalization. We first clarify the concept of meta-learning for domain generalization and introduce a novel taxonomy based on the feature extraction strategy and the classifier learning methodology, offering a granular view of methodologies. Through an exhaustive review of existing methods and underlying theories, we map out the fundamentals of the field. Our survey provides practical insights and an informed discussion on promising research directions, paving the way for future innovation in meta-learning for domain generalization.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# 混合符号化1光子干渉量子セキュア直接通信

Mixed-encoding one-photon-interference quantum secure direct communication ( http://arxiv.org/abs/2404.02787v1 )

ライセンス: Link先を確認
Xiangjie Li, Yuanbin Cheng, Xingbo Pan, Yunrong Zhang, Guilu Long, (参考訳) 量子セキュアダイレクト通信(QSDC)は、量子状態を用いた情報伝送のセキュリティと信頼性を保証する。 1光子干渉QSDC(OPI-QSDC)は送信距離を高め、安全なポイントツーポイント情報伝送を保証する技術であるが、複雑な位相ロック技術が必要である。 本稿では,位相ロック技術の必要性を解消する1光子干渉QSDC(MO-QSDC)プロトコルを提案する。 数値シミュレーションにより、MO-QSDCプロトコルがPLOB境界を破ることが示されている。

Quantum secure direct communication (QSDC) guarantees both the security and reliability of information transmission using quantum states. One-photon-interference QSDC (OPI-QSDC) is a technique that enhances the transmission distance and ensures secure point-to-point information transmission, but it requires complex phase locking technology. This paper proposes a mixed-encoding one-photon-interference QSDC (MO-QSDC) protocol that removes the need for phase locking technology. Numerical simulations demonstrate that the MO-QSDC protocol could also beat the PLOB bound.
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# GenN2N:生成するNeRF2NeRF翻訳

GenN2N: Generative NeRF2NeRF Translation ( http://arxiv.org/abs/2404.02788v1 )

ライセンス: Link先を確認
Xiangyue Liu, Han Xue, Kunming Luo, Ping Tan, Li Yi, (参考訳) 我々は,テキスト駆動のNeRF編集,カラー化,高解像度化,塗装など,さまざまなNeRF翻訳タスクのための統一されたNeRF-to-NeRF翻訳フレームワークGenN2Nを提案する。 GenN2Nは、タスク固有のスキームを持つ個別の翻訳タスク用に設計された従来の方法とは異なり、プラグイン・アンド・プレイのイメージ・ツー・イメージ・トランスレータを使用して2Dドメインで編集を行い、2D編集を3D NeRF空間に持ち上げることで、これらすべてのNeRF編集タスクを達成している。 2次元編集の3次元整合性は保証されない可能性があるため、生成モデルを用いて基礎となる3次元編集の分布をモデル化し、編集可能なすべてのNeRFをカバーすることを提案する。 2次元編集画像から3次元編集されたNeRFの分布をモデル化するために,NeRFを復号化しながら画像を符号化するVAE-GANを慎重に設計する。 潜伏空間はガウス分布と整合するように訓練され、NeRFはそのレンダリングの逆損失によって監督される。 遅延コードは2次元の視点に頼らず、真の3次元編集を反映するようにするため、コントラスト学習方式を用いて遅延コードを正規化する。 様々な編集タスクに関する大規模な実験では、GenN2Nは普遍的なフレームワークとして、柔軟な生成能力を持ちながら、タスク固有のスペシャリストと同等かそれ以上の性能を発揮している。 プロジェクトページのさらなる結果:https://xiangyueliu.github.io/GenN2N/

We present GenN2N, a unified NeRF-to-NeRF translation framework for various NeRF translation tasks such as text-driven NeRF editing, colorization, super-resolution, inpainting, etc. Unlike previous methods designed for individual translation tasks with task-specific schemes, GenN2N achieves all these NeRF editing tasks by employing a plug-and-play image-to-image translator to perform editing in the 2D domain and lifting 2D edits into the 3D NeRF space. Since the 3D consistency of 2D edits may not be assured, we propose to model the distribution of the underlying 3D edits through a generative model that can cover all possible edited NeRFs. To model the distribution of 3D edited NeRFs from 2D edited images, we carefully design a VAE-GAN that encodes images while decoding NeRFs. The latent space is trained to align with a Gaussian distribution and the NeRFs are supervised through an adversarial loss on its renderings. To ensure the latent code does not depend on 2D viewpoints but truly reflects the 3D edits, we also regularize the latent code through a contrastive learning scheme. Extensive experiments on various editing tasks show GenN2N, as a universal framework, performs as well or better than task-specific specialists while possessing flexible generative power. More results on our project page: https://xiangyueliu.github.io/GenN2N/
翻訳日:2024-04-04 17:11:28 公開日:2024-04-03
# MULAN:制御可能なテキスト・画像生成のための多層アノテートデータセット

MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation ( http://arxiv.org/abs/2404.02790v1 )

ライセンス: Link先を確認
Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Fei Chen, Steven McDonagh, Gerasimos Lampouras, Ignacio Iacobacci, Sarah Parisot, (参考訳) テキスト・ツー・イメージ生成は驚くべき結果を得たが、正確な空間制御性と迅速な忠実性は非常に難しいままである。 この制限は、しばしば手書きのマスクを必要とする、面倒なプロンプトエンジニアリング、シーンレイアウトコンディショニング、画像編集技術によって対処される。 それでも、既存の作品は、ラスタライズされたRGB出力画像の典型的な平坦な性質のために、シーンの自然なインスタンスレベルの構成性を活用するのに苦労している。 44K MUlti-Layer Annotations of RGB images as multilayer, instance-wise RGBA decompositions, and over 100K instance images。 MuLAn を構築するために,単分子 RGB 画像を背景および孤立インスタンスからなる RGBA レイヤのスタックに分解する学習自由パイプラインを開発した。 これを実現するために,事前学習された汎用モデルを用いて,画像の探索と抽出のための画像分解,隠蔽領域の再構築のための例補完,画像再構成という3つのモジュールを開発する。 パイプラインを使用してMuLAn-COCOとMuLAn-LAIONデータセットを作成します。 MuLAnでは、高品質な画像のインスタンス分解と隠蔽情報を提供する最初のフォトリアリスティックリソースを提供し、テキストから画像への生成AI研究のための新たな道を開く。 これにより,新しい生成・編集技術,特にレイヤワイドソリューションの開発が促進される。 MuLAnのデータリソースはhttps://MuLAn-dataset.github.io/.comで入手できる。

Text-to-image generation has achieved astonishing results, yet precise spatial controllability and prompt fidelity remain highly challenging. This limitation is typically addressed through cumbersome prompt engineering, scene layout conditioning, or image editing techniques which often require hand drawn masks. Nonetheless, pre-existing works struggle to take advantage of the natural instance-level compositionality of scenes due to the typically flat nature of rasterized RGB output images. Towards adressing this challenge, we introduce MuLAn: a novel dataset comprising over 44K MUlti-Layer ANnotations of RGB images as multilayer, instance-wise RGBA decompositions, and over 100K instance images. To build MuLAn, we developed a training free pipeline which decomposes a monocular RGB image into a stack of RGBA layers comprising of background and isolated instances. We achieve this through the use of pretrained general-purpose models, and by developing three modules: image decomposition for instance discovery and extraction, instance completion to reconstruct occluded areas, and image re-assembly. We use our pipeline to create MuLAn-COCO and MuLAn-LAION datasets, which contain a variety of image decompositions in terms of style, composition and complexity. With MuLAn, we provide the first photorealistic resource providing instance decomposition and occlusion information for high quality images, opening up new avenues for text-to-image generative AI research. With this, we aim to encourage the development of novel generation and editing technology, in particular layer-wise solutions. MuLAn data resources are available at https://MuLAn-dataset.github.io/.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# 波面フォトニックギアを用いた量子強化メカニカルローテーションセンシング

Quantum enhanced mechanical rotation sensing using wavefront photonic gears ( http://arxiv.org/abs/2404.02797v1 )

ライセンス: Link先を確認
Ofir Yesharim Guy Tshuva, (参考訳) 量子距離論は、拡張されたパラメータ推定に量子相関を利用する。 近年、構造光は量子力学系における分解能と感度の向上を可能にした。 しかし、光子束の損失と複雑な構成は、高次元構造光を使用しながら真の量子優位性を妨げている。 我々は,高次元構造光と,N=2のN00N状態源のコンパクトな高フラックス(45,000個の偶然数)を用いて,簡単な機械的回転量子センシング機構を導入する。 このシステムは、2つの対向スパイラル位相板と最大で l=16 のトポロジカル電荷を使い、機械回転を波面位相シフトに変換し、異なるトポロジカル電荷間の16倍の超解像と25倍の高感度を示す。 さらに、高光子フラックスにより、リアルタイムで機械的な角加速度を検出することができる。 提案手法は、様々な干渉計測手法に適用可能な、高感度な量子計測方法である。

Quantum metrology leverages quantum correlations for enhanced parameter estimation. Recently, structured light enabled increased resolution and sensitivity in quantum metrology systems. However, lossy and complex setups impacting photon flux, hinder true quantum advantage while using high dimensional structured light. We introduce a straightforward mechanical rotation quantum sensing mechanism, employing high-dimensional structured light and a compact high-flux (45,000 coincidence counts per second) N00N state source with N=2. The system utilizes two opposite spiral phase plates with topological charge of up to l=16 that convert mechanical rotation into wavefront phase shifts, and exhibit a 16-fold enhanced super-resolution and 25-fold enhanced sensitivity between different topological charges, while retaining the acquisition times and with negligible change in coincidence count. Furthermore, the high photon flux enables to detect mechanical angular acceleration in real-time. Our approach paves the way for highly sensitive quantum measurements, applicable to various interferometric schemes.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# AIとパーソナライズドラーニング:現代の教育目標とのギャップを埋める

AI and personalized learning: bridging the gap with modern educational goals ( http://arxiv.org/abs/2404.02798v1 )

ライセンス: Link先を確認
Kristjan-Julius Laak, Jaan Aru, (参考訳) パーソナライズドラーニング(Personalized Learning, PL)は、教育におけるワンサイズ・フィット・オール・アプローチの代替手段を提供することを目的としている。 技術ベースのPLソリューションは、学習性能の向上に顕著な効果を示している。 しかし、近代教育の幅広い目標との整合性は、技術や研究分野間で矛盾している。 本稿では,OECD Learning Compass 2030の目標を考慮したAI駆動PLソリューションの特性について検討する。 分析の結果,現代教育の目的とPLの方向性とのギャップが示唆された。 現代のPL技術が、コラボレーション、認知エンゲージメント、一般能力の発達など、現代教育の本質的要素を取り入れた方がよい分野を特定する。 現在のPLソリューションは、学習プロセスを支援するのに有効であるが、教育専門家が想定するPLは、単純な技術ツールを超えて、教育システムに全体的変化を必要とする。 最後に、ChatGPTのような大規模言語モデルの可能性について検討し、人工知能と、個人化学習に対する協調的かつ教師に熟練したアプローチをブレンドするハイブリッドモデルを提案する。

Personalized learning (PL) aspires to provide an alternative to the one-size-fits-all approach in education. Technology-based PL solutions have shown notable effectiveness in enhancing learning performance. However, their alignment with the broader goals of modern education is inconsistent across technologies and research areas. In this paper, we examine the characteristics of AI-driven PL solutions in light of the OECD Learning Compass 2030 goals. Our analysis indicates a gap between the objectives of modern education and the current direction of PL. We identify areas where most present-day PL technologies could better embrace essential elements of contemporary education, such as collaboration, cognitive engagement, and the development of general competencies. While the present PL solutions are instrumental in aiding learning processes, the PL envisioned by educational experts extends beyond simple technological tools and requires a holistic change in the educational system. Finally, we explore the potential of large language models, such as ChatGPT, and propose a hybrid model that blends artificial intelligence with a collaborative, teacher-facilitated approach to personalized learning.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# ナラティブ・コングリビューションにおける制御可能な質問応答生成のためのFew-Shot Promptingについて

On Few-Shot Prompting for Controllable Question-Answer Generation in Narrative Comprehension ( http://arxiv.org/abs/2404.02800v1 )

ライセンス: Link先を確認
Bernardo Leite, Henrique Lopes Cardoso, (参考訳) 質問生成は、コンテキストとして提供される与えられた入力に基づいて質問を自動的に生成することを目的としている。 制御可能な質問生成方式は、特定の属性で質問を生成することに焦点を当て、より良い制御を可能にする。 本研究では,子どものナラティブテキストから質問応答対の生成を制御するための数発のプロンプト戦略を提案する。 質問の明快さと下層の物語的要素の2つの属性を制御することを目的としている。 経験的評価では、参照モデルと並べて、数発のプロンプトを併用することで、生成プロセスの制御の有効性を示す。 提案実験では,特にセマンティック・クローズネス評価や質問応答対の多様性,一貫性といったシナリオにおいて,参照モデルを上回る数発戦略が適用されている事例を強調した。 しかし、これらの改良は必ずしも統計的に重要なものではない。 コードはgithub.com/bernardoleite/few-shot-prompting-qg-controlで公開されている。

Question Generation aims to automatically generate questions based on a given input provided as context. A controllable question generation scheme focuses on generating questions with specific attributes, allowing better control. In this study, we propose a few-shot prompting strategy for controlling the generation of question-answer pairs from children's narrative texts. We aim to control two attributes: the question's explicitness and underlying narrative elements. With empirical evaluation, we show the effectiveness of controlling the generation process by employing few-shot prompting side by side with a reference model. Our experiments highlight instances where the few-shot strategy surpasses the reference model, particularly in scenarios such as semantic closeness evaluation and the diversity and coherency of question-answer pairs. However, these improvements are not always statistically significant. The code is publicly available at github.com/bernardoleite/few-shot-prompting-qg-control.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# RealHumanEval:大規模言語モデルのプログラマサポート能力の評価

The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers ( http://arxiv.org/abs/2404.02806v1 )

ライセンス: Link先を確認
Hussein Mozannar, Valerie Chen, Mohammed Alsobay, Subhro Das, Sebastian Zhao, Dennis Wei, Manish Nagireddy, Prasanna Sattigeri, Ameet Talwalkar, David Sontag, (参考訳) コードのための大規模言語モデル (LLM) の評価は主にHumanEval (Chen et al , 2021) など静的なベンチマークに依存している。 LLMがプログラマのアシスタントとして使われるようになるにつれて、既存のベンチマークの利得が、LLMでコーディングする際のプログラマの生産性向上に繋がるかどうか、そしてコーディングに費やした時間などについて調べる。 静的なベンチマークに加えて、コード受け入れやコピーレートなどのLCMの有用性を測定するために、プロキシとして使用されるであろう選好指標の有用性について検討する。 そこで我々は,プログラマを支援するためのLLMの能力を測定するためのWebインターフェースであるRealHumanEvalを紹介した。 本研究では,RealHumanEvalを用いたユーザスタディ(N=213)を行い,異なるベースモデル性能の6つのLLMと対話した。 人間をループに組み込まない静的ベンチマークにもかかわらず、ベンチマークパフォーマンスの改善によってプログラマの生産性が向上することがわかった。 対照的に、プログラマの好みは実際のパフォーマンスと相関せず、より優れた人間中心のプロキシ信号の必要性を動機付けている。 我々はまた、RealHumanEvalをオープンソースにして、新しいモデルと研究データの人間中心の評価を可能にし、コードモデルを改善する努力を促進する。

Evaluation of large language models (LLMs) for code has primarily relied on static benchmarks, including HumanEval (Chen et al., 2021), which measure the ability of LLMs to generate complete code that passes unit tests. As LLMs are increasingly used as programmer assistants, we study whether gains on existing benchmarks translate to gains in programmer productivity when coding with LLMs, including time spent coding. In addition to static benchmarks, we investigate the utility of preference metrics that might be used as proxies to measure LLM helpfulness, such as code acceptance or copy rates. To do so, we introduce RealHumanEval, a web interface to measure the ability of LLMs to assist programmers, through either autocomplete or chat support. We conducted a user study (N=213) using RealHumanEval in which users interacted with six LLMs of varying base model performance. Despite static benchmarks not incorporating humans-in-the-loop, we find that improvements in benchmark performance lead to increased programmer productivity; however gaps in benchmark versus human performance are not proportional -- a trend that holds across both forms of LLM support. In contrast, we find that programmer preferences do not correlate with their actual performance, motivating the need for better, human-centric proxy signals. We also open-source RealHumanEval to enable human-centric evaluation of new models and the study data to facilitate efforts to improve code models.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# パッシブ心臓力学をパーソナライズするための最適化フレームワーク

An Optimization Framework to Personalize Passive Cardiac Mechanics ( http://arxiv.org/abs/2404.02807v1 )

ライセンス: Link先を確認
Lei Shi, Ian Chen, Hiroo Takayama, Vijay Vedula, (参考訳) パーソナライズされた心臓力学モデリングは、健康と疾患における心臓機能の生体力学を理解し、治療計画を支援する強力なツールである。 しかし、現在のモデルでは、単一の心臓で取得した医療画像のみに制限されており、動的画像取得処理に適用性に制限があることが多い。 本研究では、時間依存医療画像データを用いて、心臓組織の受動力学的特性を推定する逆有限要素解析(iFEA)フレームワークを提案する。 iFEAフレームワークは、新しいネスト最適化方式に依存しており、外部イテレーションは従来の最適化手法を使用して画像データに適合するパラメータを近似し、内部イテレーションはSellierのアルゴリズムを用いてストレスのない参照構成を推定する。 受動的機械的挙動を特徴づけることに焦点をあてて、このフレームワークは構造に基づく異方性超弾性構成モデルと生理学的に関連する境界条件を用いて心筋力学をシミュレートする。 安定な変分多スケールの定式化を用いて, 非線形エラストダイナミックス方程式を解析し, 心臓力学への応用を検証した。 健常者および肥大型閉塞性心筋症(HOCM)3例の心相分解CT像から得られた心室および左心房の心筋モデルを用いて検討した。 繊維方向パラメータ,メッシュサイズ,最適材料パラメータに対する初期パラメータ,摂動の影響を,厳密な感度解析を用いて評価した。 現在のiFEAの性能は、典型的には単相画像取得に使用される電力法に基づく圧力-体積関係と比較される。

Personalized cardiac mechanics modeling is a powerful tool for understanding the biomechanics of cardiac function in health and disease and assisting in treatment planning. However, current models are limited to using medical images acquired at a single cardiac phase, often limiting their applicability for processing dynamic image acquisitions. This study introduces an inverse finite element analysis (iFEA) framework to estimate the passive mechanical properties of cardiac tissue using time-dependent medical image data. The iFEA framework relies on a novel nested optimization scheme, in which the outer iterations utilize a traditional optimization method to best approximate material parameters that fit image data, while the inner iterations employ an augmented Sellier's algorithm to estimate the stress-free reference configuration. With a focus on characterizing the passive mechanical behavior, the framework employs structurally based anisotropic hyperelastic constitutive models and physiologically relevant boundary conditions to simulate myocardial mechanics. We use a stabilized variational multiscale formulation for solving the governing nonlinear elastodynamics equations, verified for cardiac mechanics applications. The framework is tested in myocardium models of biventricle and left atrium derived from cardiac phase-resolved computed tomographic (CT) images of a healthy subject and three patients with hypertrophic obstructive cardiomyopathy (HOCM). The impact of the choice of optimization methods and other numerical settings, including fiber direction parameters, mesh size, initial parameters for optimization, and perturbations to optimal material parameters, is assessed using a rigorous sensitivity analysis. The performance of the current iFEA is compared against an assumed power-law-based pressure-volume relation, typically used for single-phase image acquisition.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# 生成コントラスト不均質グラフニューラルネット

Generative-Contrastive Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2404.02810v1 )

ライセンス: Link先を確認
Yu Wang, Lei Sang, Yi Zhang, Yiwen Zhang, (参考訳) 異種グラフ(HG)は、実世界の複雑な関係をマルチタイプのノードとエッジによって効果的にモデル化することができる。 近年、自己教師型学習にインスパイアされた異種グラフニューラルネットワーク(HGNN)は、下流タスクにデータ拡張と識別器を活用することで大きな可能性を示している。 しかし、グラフの離散的で抽象的な性質のため、データの増大はまだ限られている。 上記の制約に対処するため,新しいヘテロジニアスグラフニューラルネットワーク(GC-HGNN)を提案する。 具体的には、まず、異種グラフ生成学習強化コントラストパラダイムを提案する。 このパラダイムには以下のものがある。 1)マスク付きオートエンコーダによるコントラストビュー増強戦略 2) 固い負のサンプルを生成するために, 位置認識と意味認識を意識した正のサンプル採取戦略。 3)地域情報とグローバル情報を取得するための階層的コントラスト学習戦略。 さらに、階層的コントラスト学習とサンプリング戦略は、生成的コントラストの観点からの差別化の強化を目的としている。 最後に、我々のモデルを8つの実世界のデータセット上で17のベースラインと比較する。 本モデルは,ノード分類およびリンク予測タスクにおいて,最新のコントラストベースラインおよび生成ベースラインより優れる。 私たちの作業を再現するため、私たちはhttps://github.com/xxx.comでコードをオープンソース化しました。

Heterogeneous Graphs (HGs) can effectively model complex relationships in the real world by multi-type nodes and edges. In recent years, inspired by self-supervised learning, contrastive Heterogeneous Graphs Neural Networks (HGNNs) have shown great potential by utilizing data augmentation and discriminators for downstream tasks. However, data augmentation is still limited due to the discrete and abstract nature of graphs. To tackle the above limitations, we propose a novel \textit{Generative-Contrastive Heterogeneous Graph Neural Network (GC-HGNN)}. Specifically, we first propose a heterogeneous graph generative learning enhanced contrastive paradigm. This paradigm includes: 1) A contrastive view augmentation strategy by using masked autoencoder. 2) Position-aware and semantics-aware positive sample sampling strategy for generate hard negative samples. 3) A hierarchical contrastive learning strategy for capturing local and global information. Furthermore, the hierarchical contrastive learning and sampling strategies aim to constitute an enhanced discriminator under the generative-contrastive perspective. Finally, we compare our model with seventeen baselines on eight real-world datasets. Our model outperforms the latest contrastive and generative baselines on node classification and link prediction tasks. To reproduce our work, we have open-sourced our code at https://github.com/xxx.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# 大規模微小血管セグメンテーションのためのGPU加速RCFレベルセットの進化

GPU-Accelerated RSF Level Set Evolution for Large-Scale Microvascular Segmentation ( http://arxiv.org/abs/2404.02813v1 )

ライセンス: Link先を確認
Meher Niger, Helya Goharbavang, Taeyong Ahn, Emily K. Alley, Joshua D. Wythe, Guoning Chen, David Mayerich, (参考訳) これらの構造は現在、共焦点顕微鏡や光シート顕微鏡を含む、ほとんどの高度な3次元画像モダリティの回折限界に近いため、モデル化は困難である。 これらのネットワークの個々のコンポーネントが個々のピクセルの区切り内で変動するため、セマンティックセグメンテーションが困難になる。 レベルセット法は、結果モデルに表面的および位相的制約を提供することにより、この問題を解決するのに理想的であるが、これらのアクティブな輪郭法はテラバイト規模の画像に対して極めて時間的かつ実用的である。 本研究では,単一命令多重データ (SIMD) と単一プログラム多重データ (SPMD) 並列処理の両方を用いて,3次元評価を可能とした領域スケーラブルフィッティング (RSF) レベルセットモデルの再構成と実装を提案する。 これにより、グラフィクス処理ユニット(GPU)を用いてデータセットの独立領域におけるレベルセット方程式の評価が可能となり、高解像度ネットワークの大規模セグメンテーションを実用的かつ安価に行うことができる。 我々は,マイクロCT,光シート蛍光顕微鏡(LSFM),ミリング顕微鏡などの微小血管データを取得するために,最先端イメージング技術を用いて取得した複数のデータセットに対して,この3次元並列RSFアプローチを検証した。 RSFモデルの性能と精度を評価するため,モンテカルロをベースとした検証手法を適用し,結果を他のセグメンテーション法と比較した。 また、並列ハードウェアを利用した処理速度の向上を示す厳密なプロファイリングも提供する。 本研究は, 大規模高トポロジーネットワーク構造をセグメント化するための課題領域において, 特に微小血管モデルの構築に焦点をあてて, RSF モデルの実用的応用を実証するものである。

Microvascular networks are challenging to model because these structures are currently near the diffraction limit for most advanced three-dimensional imaging modalities, including confocal and light sheet microscopy. This makes semantic segmentation difficult, because individual components of these networks fluctuate within the confines of individual pixels. Level set methods are ideally suited to solve this problem by providing surface and topological constraints on the resulting model, however these active contour techniques are extremely time intensive and impractical for terabyte-scale images. We propose a reformulation and implementation of the region-scalable fitting (RSF) level set model that makes it amenable to three-dimensional evaluation using both single-instruction multiple data (SIMD) and single-program multiple-data (SPMD) parallel processing. This enables evaluation of the level set equation on independent regions of the data set using graphics processing units (GPUs), making large-scale segmentation of high-resolution networks practical and inexpensive. We tested this 3D parallel RSF approach on multiple data sets acquired using state-of-the-art imaging techniques to acquire microvascular data, including micro-CT, light sheet fluorescence microscopy (LSFM) and milling microscopy. To assess the performance and accuracy of the RSF model, we conducted a Monte-Carlo-based validation technique to compare results to other segmentation methods. We also provide a rigorous profiling to show the gains in processing speed leveraging parallel hardware. This study showcases the practical application of the RSF model, emphasizing its utility in the challenging domain of segmenting large-scale high-topology network structures with a particular focus on building microvascular models.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# 北エフモデルにおける任意の量子多部マスカ

Anyonic quantum multipartite maskers in the Kitaev model ( http://arxiv.org/abs/2404.02814v1 )

ライセンス: Link先を確認
Yao Shen, Wei-Min Shang, Chi-Chun Zhou, Fu-Lin Zhang, (参考訳) 量子力学の構造は、量子情報をマスキングする二部構成のシナリオを禁ずるが、多部構成のマスキングが可能である。 ラテン四角形は、一連の三部作のマスカーと密接に関連している。 これは、元の非閉定理とは大きく異なる別の項目をno-go定理に追加する。 一方、2次元の任意の励起は、量子物理学のエキゾチックな集合的挙動を示し、フォールトトレラントなトポロジカル量子コンピューティングの道を開く。 ここでは、北エフモデルにおけるアベリアンとイジングのラテン二乗構成を%とし、任意の正則空間におけるマスク可能な空間構成について検討する。 キタエフ・エノンの循環とブレイディングは、任意の空間における拡張超ディスク上でのマスク操作である。 また,キタエフ・イジング・エニオン・モデルにおいて,量子情報マスキングをテレポーテーション方式で実現している。

The structure of quantum mechanics forbids a bipartite scenario for masking quantum information, however, it allows multipartite maskers. The Latin squares are found to be closely related to a series of tripartite maskers. This adds another item, significantly different from the original no-cloning theorem, to the no-go theorems. On the other hand, anyonic excitations in two dimensions exhibit exotic collective behaviors of quantum physics, and open the avenue of fault-tolerant topological quantum computing. Here, we give the Latin-square construction of Abelian and Ising anyons %of in the Kitaev model and study the maskable space configuration in anyonic space. The circling and braiding of Kitaev anyons are masking operations on extended hyperdisks in anyonic space. We also realize quantum information masking in a teleportation way in the Kitaev Ising anyon model.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# 最適化型タスク・アンド・モーションプランニングに関する調査研究:古典的アプローチから学習的アプローチへ

A Survey of Optimization-based Task and Motion Planning: From Classical To Learning Approaches ( http://arxiv.org/abs/2404.02817v1 )

ライセンス: Link先を確認
Zhigen Zhao, Shuo Chen, Yan Ding, Ziyi Zhou, Shiqi Zhang, Danfei Xu, Ye Zhao, (参考訳) タスク・アンド・モーション・プランニング(TAMP)は、高レベルのタスク・プランニングと低レベルのモーション・プランニングを統合し、ロボットに自律性を持たせ、長期の動的タスクを効果的に推論する。 最適化ベースのTAMPは、目的関数を介して目標条件を定義し、ロボットと環境の間のオープンな目標、ロボット力学、物理的相互作用を扱うことができるハイブリッド最適化アプローチに焦点を当てている。 したがって、最適化に基づくTAMPは、高度に複雑で接触に富んだ移動と操作の問題を解くのに特に適している。 この調査は最適化に基づくTAMPの包括的なレビューを提供する。 一 動作記述言語及び時間論理を含むドメイン表現の計画 (II)AI計画・軌道最適化(TO)を含むTAMPコンポーネントの個別ソリューション戦略 三 論理ベースのタスク計画とモデルベースのTOの動的相互作用 この調査の特に焦点は、TAMP、特に階層的および分散的アプローチを効率的に解くアルゴリズム構造を明らかにすることである。 さらに、この調査は古典的手法と大規模言語モデルのような現代的学習に基づく革新との相乗効果を強調している。 さらに,この調査では,TAMPの今後の研究方向性について論じ,アルゴリズムとアプリケーション固有の課題を取り上げている。

Task and Motion Planning (TAMP) integrates high-level task planning and low-level motion planning to equip robots with the autonomy to effectively reason over long-horizon, dynamic tasks. Optimization-based TAMP focuses on hybrid optimization approaches that define goal conditions via objective functions and are capable of handling open-ended goals, robotic dynamics, and physical interaction between the robot and the environment. Therefore, optimization-based TAMP is particularly suited to solve highly complex, contact-rich locomotion and manipulation problems. This survey provides a comprehensive review on optimization-based TAMP, covering (i) planning domain representations, including action description languages and temporal logic, (ii) individual solution strategies for components of TAMP, including AI planning and trajectory optimization (TO), and (iii) the dynamic interplay between logic-based task planning and model-based TO. A particular focus of this survey is to highlight the algorithm structures to efficiently solve TAMP, especially hierarchical and distributed approaches. Additionally, the survey emphasizes the synergy between the classical methods and contemporary learning-based innovations such as large language models. Furthermore, the future research directions for TAMP is discussed in this survey, highlighting both algorithmic and application-specific challenges.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# 空間時間精度トレードオフをもつ非単元及び単元対角演算子の効率的な量子回路

Efficient Quantum Circuits for Non-Unitary and Unitary Diagonal Operators with Space-Time-Accuracy trade-offs ( http://arxiv.org/abs/2404.02819v1 )

ライセンス: Link先を確認
Julien Zylberman, Ugo Nzongani, Andrea Simonetto, Fabrice Debbasch, (参考訳) ユニタリおよび非ユニタリ対角作用素は、偏微分方程式の解法、ハミルトニアンシミュレーション、量子コンピュータへの古典的データのロード(量子状態の準備)など、量子アルゴリズムの基本的な構成要素である。 本稿では,一元対角演算子と非単元対角演算子を効率よく調整可能な量子回路で実装する一般手法を提案する。 深さ、すなわち量子回路の量子ゲートの層数(英語版)は、幅、すなわち、アンシラ量子ビットの数、あるいは実装された演算子と対象の量子ゲートの間の精度に関して再現可能である。 正確なメソッドは、サイズ、すなわち、原始量子ゲートの総数、または幅のどちらかの点で最適な指数関数スケーリングを持つが、近似メソッドは、滑らかで少なくとも微分可能な関数に依存する対角作用素のクラスに対して効率的であることが証明される。 我々のアプローチは一般に、対角作用素が調整可能な深度あるいは近似値になるようにし、その幅や近似レベルを増大させることで回路の深さを減少させるのに十分である。 この機能は柔軟性を提供し、コヒーレンス時間や累積ゲートエラーのハードウェア制限にマッチする。 拡散方程式の初期ガウス関数は、拡散過程の非単項進化作用素によって進化する前に、量子状態の準備と拡散方程式の非単項実空間シミュレーションによって、これらの方法を説明する。

Unitary and non-unitary diagonal operators are fundamental building blocks in quantum algorithms with applications in the resolution of partial differential equations, Hamiltonian simulations, the loading of classical data on quantum computers (quantum state preparation) and many others. In this paper, we introduce a general approach to implement unitary and non-unitary diagonal operators with efficient-adjustable-depth quantum circuits. The depth, {\sl i.e.}, the number of layers of quantum gates of the quantum circuit, is reducible with respect either to the width, {\sl i.e.}, the number of ancilla qubits, or to the accuracy between the implemented operator and the target one. While exact methods have an optimal exponential scaling either in terms of size, {\sl i.e.}, the total number of primitive quantum gates, or width, approximate methods prove to be efficient for the class of diagonal operators depending on smooth, at least differentiable, functions. Our approach is general enough to allow any method for diagonal operators to become adjustable-depth or approximate, decreasing the depth of the circuit by increasing its width or its approximation level. This feature offers flexibility and can match with the hardware limitations in coherence time or cumulative gate error. We illustrate these methods by performing quantum state preparation and non-unitary-real-space simulation of the diffusion equation: an initial Gaussian function is prepared on a set of qubits before being evolved through the non-unitary evolution operator of the diffusion process.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# 機械学習を用いた国家法・政策における気候目標の特定

Identifying Climate Targets in National Laws and Policies using Machine Learning ( http://arxiv.org/abs/2404.02822v1 )

ライセンス: Link先を確認
Matyas Juhasz, Tina Marchand, Roshan Melwani, Kalyan Dutia, Sarah Goodenough, Harrison Pim, Henry Franks, (参考訳) 定量化政策の対象は気候政策の基本的な要素であり、典型的にはドメイン特化言語と技術言語によって特徴づけられる。 地球温暖化対策の総合的な展望を養うための現在の手法は、かなりの手作業を必要とする。 現在,国家法や政策から気候目標を抽出するスケーラブルな方法はほとんどなく,政策立案者や研究者が(1)世界目標と民間・公共セクターの整合性を評価し,(2)政策決定を通知する能力を制限する。 本稿では,国家法と政策から気候目標の言及を抽出するアプローチを提案する。 我々は、ターゲットの3つのカテゴリ("Net Zero"、"Reduction"、"Other"(例えば再生可能エネルギーのターゲット))を識別する専門家アノテートデータセットを作成し、テキストでそれらを確実に識別するように分類器を訓練する。 我々は、我々のモデルに関連するバイアスと株式の影響を調査し、問題のある特徴として特定の年と国名を特定する。 最後に、この分類器を世界各国の気候法と政策のデータセット(CPR)とUNFCCCに提出し、既存の気候政策データベースの自動化されたスケーラブルなデータ収集の可能性を強調し、さらなる研究を支援する。 私たちの研究は、政策立案者や研究者にとって重要な気候政策要素のアクセシビリティーが大幅に向上したことを示している。 当社のモデルは \url{https://huggingface.co/ClimatePolicyRadar/ National-climate-targets} で、関連するデータセットは \url{https://huggingface.co/datasets/ClimatePolicyRadar/ national-climate-targets} で公開しています。

Quantified policy targets are a fundamental element of climate policy, typically characterised by domain-specific and technical language. Current methods for curating comprehensive views of global climate policy targets entail significant manual effort. At present there are few scalable methods for extracting climate targets from national laws or policies, which limits policymakers' and researchers' ability to (1) assess private and public sector alignment with global goals and (2) inform policy decisions. In this paper we present an approach for extracting mentions of climate targets from national laws and policies. We create an expert-annotated dataset identifying three categories of target ('Net Zero', 'Reduction' and 'Other' (e.g. renewable energy targets)) and train a classifier to reliably identify them in text. We investigate bias and equity impacts related to our model and identify specific years and country names as problematic features. Finally, we investigate the characteristics of the dataset produced by running this classifier on the Climate Policy Radar (CPR) dataset of global national climate laws and policies and UNFCCC submissions, highlighting the potential of automated and scalable data collection for existing climate policy databases and supporting further research. Our work represents a significant upgrade in the accessibility of these key climate policy elements for policymakers and researchers. We publish our model at \url{https://huggingface.co/ClimatePolicyRadar/national-climate-targets} and related dataset at \url{https://huggingface.co/datasets/ClimatePolicyRadar/national-climate-targets}.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# Conifer: 複雑な制約付きインストラクションの改善-大規模言語モデルの追跡能力

Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models ( http://arxiv.org/abs/2404.02823v1 )

ライセンス: Link先を確認
Haoran Sun, Lixin Liu, Junjie Li, Fengyu Wang, Baohua Dong, Ran Lin, Ruohui Huang, (参考訳) 大規模言語モデル(LLM)の命令に従う能力は、現実世界のアプリケーションにとって不可欠である。 近年の進歩にもかかわらず、いくつかの研究は、LSMは困難な指示、特に複雑な制約を含む命令に直面する際に苦労し、様々なタスクにおけるそれらの効果を妨げることを強調している。 この課題に対処するために,複雑な制約を持つマルチレベル命令に従うLLMを強化するために設計された,新しい命令チューニングデータセットであるConiferを導入する。 GPT-4を用いて, 一連のLCM駆動の精錬プロセスによってデータセットをキュレートし, 高品質化を図る。 また,プロセスのフィードバックから学習し易い進歩を強調するプログレッシブラーニング手法を提案する。 コニファーで訓練されたモデルは、特に複雑な制約のある命令に対して、命令追従能力の顕著な改善を示す。 いくつかのインストラクション追従ベンチマークでは、我々の7Bモデルは最先端のオープンソース7Bモデルよりも優れており、特定のメトリクスにおいて10倍のモデルの性能を誇っている。 すべてのコードとConiferデータセットはhttps://www.github.com/ConiferLM/Coniferで入手できる。

The ability of large language models (LLMs) to follow instructions is crucial to real-world applications. Despite recent advances, several studies have highlighted that LLMs struggle when faced with challenging instructions, especially those that include complex constraints, hindering their effectiveness in various tasks. To address this challenge, we introduce Conifer, a novel instruction tuning dataset, designed to enhance LLMs to follow multi-level instructions with complex constraints. Utilizing GPT-4, we curate the dataset by a series of LLM-driven refinement processes to ensure high quality. We also propose a progressive learning scheme that emphasizes an easy-to-hard progression, and learning from process feedback. Models trained with Conifer exhibit remarkable improvements in instruction-following abilities, especially for instructions with complex constraints. On several instruction-following benchmarks, our 7B model outperforms the state-of-the-art open-source 7B models, even exceeds the performance of models 10 times larger on certain metrics. All the code and Conifer dataset are available at https://www.github.com/ConiferLM/Conifer.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# BAdam:大規模言語モデルのためのメモリ効率の良いフルパラメータトレーニング手法

BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models ( http://arxiv.org/abs/2404.02827v1 )

ライセンス: Link先を確認
Qijun Luo, Hengxu Yu, Xiao Li, (参考訳) この研究は、ブロック座標最適化フレームワークを内部解法として活用した最適化器であるBAdamを提示する。 BAdamは、大きな言語モデルの完全なパラメータ微調整に対するメモリ効率のよいアプローチを提供し、チェーンルール特性のおかげで、後方プロセスの実行時間を短縮する。 実験では,1つのRTX3090-24GB GPUを用いて,Alpaca-GPT4データセット上のLlama 2-7BモデルにBAdamを適用した。 その結果, BAdam は LoRA や LOMO と比較して収束挙動が優れていることが示唆された。 さらに、MT-benchを用いた命令調整モデルの下流性能評価により、BAdamはLoRAをわずかに上回り、LOMOをはるかに上回ることを示す。 最後に、中規模のタスク、すなわちSuperGLUEベンチマークでRoBERTa-largeを微調整するタスクでBAdamとAdamを比較した。 その結果、BAdamはAdamとのパフォーマンスギャップを狭めることができることがわかった。 私たちのコードはhttps://github.com/Ledzy/BAdam.comで公開されています。

This work presents BAdam, an optimizer that leverages the block coordinate optimization framework with Adam as the inner solver. BAdam offers a memory efficient approach to the full parameter finetuning of large language models and reduces running time of the backward process thanks to the chain rule property. Experimentally, we apply BAdam to instruction-tune the Llama 2-7B model on the Alpaca-GPT4 dataset using a single RTX3090-24GB GPU. The results indicate that BAdam exhibits superior convergence behavior in comparison to LoRA and LOMO. Furthermore, our downstream performance evaluation of the instruction-tuned models using the MT-bench shows that BAdam modestly surpasses LoRA and more substantially outperforms LOMO. Finally, we compare BAdam with Adam on a medium-sized task, i.e., finetuning RoBERTa-large on the SuperGLUE benchmark. The results demonstrate that BAdam is capable of narrowing the performance gap with Adam. Our code is available at https://github.com/Ledzy/BAdam.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# 人間の解釈可能なプロトタイプを用いた脊椎骨折の解釈可能性の向上

Enhancing Interpretability of Vertebrae Fracture Grading using Human-interpretable Prototypes ( http://arxiv.org/abs/2404.02830v1 )

ライセンス: Link先を確認
Poulami Sinhamahapatra, Suprosanna Shit, Anjany Sekuboyina, Malek Husseini, David Schinz, Nicolas Lenhart, Joern Menze, Jan Kirschke, Karsten Roscher, Stephan Guennemann, (参考訳) 椎骨骨折の重症度は, 画像診断の課題である脊椎骨折の重症度を分類し, 近年, 深層学習(DL)モデルが注目されている。 DL支援医療診断のような重要なユースケースにおいて、透明性と信頼性が要求されるにもかかわらず、そのようなモデルを人間に解釈できるようにする試みはごくわずかであった。 さらに、そのようなモデルはポストホックメソッドや追加アノテーションに依存する。 本研究では,脊椎骨折(原型)の関連部分を見つけるための新しい解釈可能・設計手法であるProtoVerseを提案し,そのモデルの決定を人間に理解可能な方法で確実に説明する。 具体的には、複雑なセマンティクスを持つ小さなデータセットにおいて、プロトタイプの反復を緩和するために、新しい多様性促進損失を導入する。 We have been experiment with the VerSe'19 dataset and outformed the existing prototype-based method。 さらに,本モデルはポストホック法に対して優れた解釈性を提供する。 専門の放射線科医は,臨床応用の可能性を示し,その結果の視覚的解釈可能性について検証した。

Vertebral fracture grading classifies the severity of vertebral fractures, which is a challenging task in medical imaging and has recently attracted Deep Learning (DL) models. Only a few works attempted to make such models human-interpretable despite the need for transparency and trustworthiness in critical use cases like DL-assisted medical diagnosis. Moreover, such models either rely on post-hoc methods or additional annotations. In this work, we propose a novel interpretable-by-design method, ProtoVerse, to find relevant sub-parts of vertebral fractures (prototypes) that reliably explain the model's decision in a human-understandable way. Specifically, we introduce a novel diversity-promoting loss to mitigate prototype repetitions in small datasets with intricate semantics. We have experimented with the VerSe'19 dataset and outperformed the existing prototype-based method. Further, our model provides superior interpretability against the post-hoc method. Importantly, expert radiologists validated the visual interpretability of our results, showing clinical applicability.
翻訳日:2024-04-04 17:01:36 公開日:2024-04-03
# AIエージェントによるバイオメディカルディスカバリの強化

Empowering Biomedical Discovery with AI Agents ( http://arxiv.org/abs/2404.02831v1 )

ライセンス: Link先を確認
Shanghua Gao, Ada Fang, Yepeng Huang, Valentina Giunchiglia, Ayush Noori, Jonathan Richard Schwarz, Yasha Ektefaie, Jovana Kondic, Marinka Zitnik, (参考訳) 我々は「AI科学者」を、機械学習ツールを実験プラットフォームに統合する協調エージェントを通じて、生物医学研究を促進する懐疑的な学習と推論のシステムとして想定する。 バイオメディカルAIエージェントは、人間の創造性と専門知識と、大規模なデータセットを分析し、仮説空間をナビゲートし、反復的なタスクを実行するAIの能力を組み合わせる。 AIエージェントは、自己評価や発見ワークフローの計画など、さまざまなタスクに熟練している。 これらのエージェントは、大きな言語モデルと生成モデルを使用して、継続的な学習のために構造化された記憶を特徴付け、科学知識、生物学的原理、理論を組み込むために機械学習ツールを使用する。 AIエージェントは、ハイブリッド細胞シミュレーション、プログラム可能な表現型制御、細胞回路の設計、新しい治療法の開発など、幅広い領域に影響を与える可能性がある。

We envision 'AI scientists' as systems capable of skeptical learning and reasoning that empower biomedical research through collaborative agents that integrate machine learning tools with experimental platforms. Rather than taking humans out of the discovery process, biomedical AI agents combine human creativity and expertise with AI's ability to analyze large datasets, navigate hypothesis spaces, and execute repetitive tasks. AI agents are proficient in a variety of tasks, including self-assessment and planning of discovery workflows. These agents use large language models and generative models to feature structured memory for continual learning and use machine learning tools to incorporate scientific knowledge, biological principles, and theories. AI agents can impact areas ranging from hybrid cell simulation, programmable control of phenotypes, and the design of cellular circuits to the development of new therapies.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# 「敵対的ページは現実の脅威か?」 : 敵対的ページの利用者の認識を理解する

"Are Adversarial Phishing Webpages a Threat in Reality?" Understanding the Users' Perception of Adversarial Webpages ( http://arxiv.org/abs/2404.02832v1 )

ライセンス: Link先を確認
Ying Yuan, Qingying Hao, Giovanni Apruzzese, Mauro Conti, Gang Wang, (参考訳) 機械学習ベースのフィッシングWebサイト検出器(ML-PWD)は、現在運用中のアンチフィッシングソリューションの重要な部分である。 残念なことに、ML-PWDは、学術研究と現実世界の敵対的なフィッシングのWebページの分析の両方によって証明された、敵の回避の傾向にある。 しかし、既存の研究は主に、ML-PWDに対する敵のフィッシングWebページの評価に重点を置いている。 本稿では,2つのユーザスタディ (n=470) を実施して,ヒトが対人フィッシングのWebページをどのように知覚するかを検証し,直感的なML-PWDを回避した合成されたページ(最先端のML-PWDを回避した)と,実対人Webページ(野生のWebから取り出した)を対象とする。 以上の結果から,対戦型フィッシングはユーザとML-PWDの両方にとって脅威であることが明らかとなった。 しかし、全ての敵の摂動が等しく効果的であるわけではない。 例えば、タイプミスを追加した人は、より視覚的な大きさの摂動(背景を置き換えるなど)を見渡す傾向にあるユーザにとって、著しく目立たしい。 また, ブランドウェブサイトを訪問するユーザの自己報告頻度は, フィッシング検出精度と統計的に負の相関がみられ, 過信が原因と考えられる。 リソースを解放します。

Machine learning based phishing website detectors (ML-PWD) are a critical part of today's anti-phishing solutions in operation. Unfortunately, ML-PWD are prone to adversarial evasions, evidenced by both academic studies and analyses of real-world adversarial phishing webpages. However, existing works mostly focused on assessing adversarial phishing webpages against ML-PWD, while neglecting a crucial aspect: investigating whether they can deceive the actual target of phishing -- the end users. In this paper, we fill this gap by conducting two user studies (n=470) to examine how human users perceive adversarial phishing webpages, spanning both synthetically crafted ones (which we create by evading a state-of-the-art ML-PWD) as well as real adversarial webpages (taken from the wild Web) that bypassed a production-grade ML-PWD. Our findings confirm that adversarial phishing is a threat to both users and ML-PWD, since most adversarial phishing webpages have comparable effectiveness on users w.r.t. unperturbed ones. However, not all adversarial perturbations are equally effective. For example, those with added typos are significantly more noticeable to users, who tend to overlook perturbations of higher visual magnitude (such as replacing the background). We also show that users' self-reported frequency of visiting a brand's website has a statistically negative correlation with their phishing detection accuracy, which is likely caused by overconfidence. We release our resources.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# 検索型ニューラルネットワーク翻訳におけるメモリからの例検索:システム間比較

Retrieving Examples from Memory for Retrieval Augmented Neural Machine Translation: A Systematic Comparison ( http://arxiv.org/abs/2404.02835v1 )

ライセンス: Link先を確認
Maxime Bouthors, Josep Crego, Francois Yvon, (参考訳) Retrieval-Augmented Neural Machine Translation (RAMT)アーキテクチャは、メモリからサンプルを取得して生成プロセスをガイドする。 この傾向のほとんどの研究は、検索した例を利用する新しい方法を探っているが、上流の検索手順はほとんど探索されていない。 本稿では,これらの2つのプロセス間の相互作用をよりよく理解するために,複数の翻訳アーキテクチャに対する様々な検索手法の効果について検討する。 マルチドメイン環境で2つの言語ペアで実験を行い、標準自己回帰モデル、編集ベースモデル、コンテキスト内学習を伴う大規模言語モデルに基づいて、いくつかの下流アーキテクチャを考察する。 本実験により, 検索手法の選択は, アーキテクチャ間の差異を伴って, 翻訳スコアに影響を及ぼすことが示された。 また、サンプルの数と多様性を増大させる効果についても論じる。

Retrieval-Augmented Neural Machine Translation (RAMT) architectures retrieve examples from memory to guide the generation process. While most works in this trend explore new ways to exploit the retrieved examples, the upstream retrieval step is mostly unexplored. In this paper, we study the effect of varying retrieval methods for several translation architectures, to better understand the interplay between these two processes. We conduct experiments in two language pairs in a multi-domain setting and consider several downstream architectures based on a standard autoregressive model, an edit-based model, and a large language model with in-context learning. Our experiments show that the choice of the retrieval technique impacts the translation scores, with variance across architectures. We also discuss the effects of increasing the number and diversity of examples, which are mostly positive across the board.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# Cherry on Top:パラメータの不均一性と大規模言語モデルの量子化

Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models ( http://arxiv.org/abs/2404.02837v1 )

ライセンス: Link先を確認
Wanyun Cui, Qianle Wang, (参考訳) 本稿では,大規模言語モデル(LLM)におけるパラメータの不均一性の現象を明らかにする。 パラメータの小さなサブセットがモデル性能に不均等に大きな影響を与えているのに対して、ほとんどのパラメータは最小限の影響しか与えていないことが分かりました。 この不均一性は、異なるモデルファミリ、スケール、タイプにまたがる。 この観測により,混合精度パラメータの最適化を統一する新しい量子化法であるCherryQを提案する。 CherryQは、重要なチェリーパラメータを高い精度で識別し、保存し、残りのパラメータを低い精度で積極的に定量化する。 大規模な実験はCherryQの有効性を示す。 CherryQは、パープレキシティとダウンストリームタスクのパフォーマンスの観点から、既存の量子化アプローチより優れている。 特に、我々の3ビット量子化Vicuna-1.5は16ビットに比べて競争力がある。 これらの結果は,パラメータの不均一性を生かしてLLMの効率的な展開を可能にするCherryQの可能性を強調した。

This paper reveals the phenomenon of parameter heterogeneity in large language models (LLMs). We find that a small subset of ``cherry'' parameters exhibit a disproportionately large influence on model performance, while the vast majority of parameters have minimal impact. This heterogeneity is found to be prevalent across different model families, scales, and types. Motivated by this observation, we propose CherryQ, a novel quantization method that unifies the optimization of mixed-precision parameters. CherryQ identifies and preserves the critical cherry parameters in high precision while aggressively quantizing the remaining parameters to low precision. Extensive experiments demonstrate the effectiveness of CherryQ. CherryQ outperforms existing quantization approaches in terms of perplexity and downstream task performance. Notably, our 3-bit quantized Vicuna-1.5 exhibits competitive performance compared to their 16-bit counterparts. These findings highlight the potential of CherryQ for enabling efficient deployment of LLMs by taking advantage of parameter heterogeneity.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# I-Design:パーソナライズされたLLMインテリアデザイナ

I-Design: Personalized LLM Interior Designer ( http://arxiv.org/abs/2404.02838v1 )

ライセンス: Link先を確認
Ata Çelen, Guo Han, Konrad Schindler, Luc Van Gool, Iro Armeni, Anton Obukhov, Xi Wang, (参考訳) インテリアデザインは、私たちが何者で、何を望むか - それぞれのデザインは、異なる個性と同じくらいユニークです。 しかし、物理的空間の制約と機能的および視覚的期待を一致させる必要があるため、非専門職がこれを表現し、実現することは簡単ではない。 I-Designは、ユーザーが自然言語通信を通じて設計目標を生成、視覚化できるインテリアデザイナである。 I-Designは、対話や論理的推論に携わる大規模な言語モデルエージェントのチームから始まり、テキストによるユーザ入力を、相対的なオブジェクト関係を持つ実行可能なシーングラフ設計に変換する。 その後、効果的配置アルゴリズムがシーン内の各オブジェクトの最適な位置を決定する。 最終的な設計は、既存のオブジェクトデータベースから資産を取り出し、統合することで、3Dで構築されます。 さらに,視覚言語モデルを用いて設計パイプラインを補完する新しい評価プロトコルを提案する。 大規模な量的および質的な実験により、I-Designは、高品質な3Dデザインソリューションを提供し、ユーザ入力にマッチする抽象概念と整合し、詳細な3Dアレンジメントと概念的忠実さでその利点を示す、既存の方法よりも優れていることが示された。

Interior design allows us to be who we are and live how we want - each design is as unique as our distinct personality. However, it is not trivial for non-professionals to express and materialize this since it requires aligning functional and visual expectations with the constraints of physical space; this renders interior design a luxury. To make it more accessible, we present I-Design, a personalized interior designer that allows users to generate and visualize their design goals through natural language communication. I-Design starts with a team of large language model agents that engage in dialogues and logical reasoning with one another, transforming textual user input into feasible scene graph designs with relative object relationships. Subsequently, an effective placement algorithm determines optimal locations for each object within the scene. The final design is then constructed in 3D by retrieving and integrating assets from an existing object database. Additionally, we propose a new evaluation protocol that utilizes a vision-language model and complements the design pipeline. Extensive quantitative and qualitative experiments show that I-Design outperforms existing methods in delivering high-quality 3D design solutions and aligning with abstract concepts that match user input, showcasing its advantages across detailed 3D arrangement and conceptual fidelity.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# リアル運転予測のためのAI強化自動化 - 産業用ユースケース

AI-augmented Automation for Real Driving Prediction: an Industrial Use Case ( http://arxiv.org/abs/2404.02841v1 )

ライセンス: Link先を確認
Romina Eramo, Hamzeh Eyal Salman, Matteo Spezialetti, Darko Stern, Pierre Quinton, Antonio Cicchetti, (参考訳) 自動車システムの複雑さの増大は、今後の課題をマスターするために、新しい開発戦略と方法を必要とします。 そのため、従来のメソッドは、自動化のレベルが向上し、継続的な改善サイクルが速くなることで変更する必要があります。 この文脈では、実際の運転条件でテストを実行する必要があるため、現在の車両性能テストは非常に時間がかかり高価である。 その結果、DevOpsのようなアジャイル/イテレーティブなプロセスは、頻繁なテストをトリガーする必要性によって、ほとんど妨げられています。 本稿では,継続的車両開発とテストを支援する機械学習とモデルベースエンジニアリングに基づくAI拡張ソリューションを開発する実践的な経験について報告する。 特に、実運転条件で収集された履歴データを利用して、高忠実性駆動シミュレータを合成し、仮想環境における性能試験を可能にする。 この実践的経験に基づいて,実運転行動に基づく予測を支援する概念的枠組みも提案する。

The risen complexity of automotive systems requires new development strategies and methods to master the upcoming challenges. Traditional methods need thus to be changed by an increased level of automation, and a faster continuous improvement cycle. In this context, current vehicle performance tests represent a very time-consuming and expensive task due to the need to perform the tests in real driving conditions. As a consequence, agile/iterative processes like DevOps are largely hindered by the necessity of triggering frequent tests. This paper reports on a practical experience of developing an AI-augmented solution based on Machine Learning and Model-based Engineering to support continuous vehicle development and testing. In particular, historical data collected in real driving conditions is leveraged to synthesize a high-fidelity driving simulator and hence enable performance tests in virtual environments. Based on this practical experience, this paper also proposes a conceptual framework to support predictions based on real driving behavior.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# 高速計算によるスケーラブル量子検出器トモグラフィ

Scalable quantum detector tomography by high-performance computing ( http://arxiv.org/abs/2404.02844v1 )

ライセンス: Link先を確認
Timon Schapeler, Robert Schade, Michael Lass, Christian Plessl, Tim J. Bartley, (参考訳) 大規模では、量子システムは、あるタスクを実行する際に古典的な処理よりも有利になる。 したがって、これらのシステムを関連するスケールで分析するツールの開発は、量子力学と一致する方法で、性能をベンチマークし、その動作を特徴づけるのに重要である。 古典的な計算手法は、あるスケールを超える量子システムの類似した計算を行うことはできないが、古典的なハイパフォーマンスコンピューティング(HPC)は、これらの特徴付けと認証タスクに正確に役立つかもしれない。 高速計算を用いたオープンソースのカスタマイズアルゴリズムの開発により、ヒルベルト空間10^6$のメガスケール量子フォトニクス検出器上で量子トモグラフィーを行う。 これは、検出器の量子記述である正の演算子値測度(POVM)に対応する行列の10^8$要素を見つける必要があり、計算時間の数分で達成される。 さらに,この問題の構造を生かして高効率な並列スケーリングを実現し,量子オブジェクトのシステムサイズを10〜12ドルまで削減し,本手法を用いて再構成する手法を提案する。 一般に、これは量子現象の一貫した量子力学的記述が日々のスケールで適用可能であることを示している。 より具体的には、これは計算およびサンプリングタスクに使用される大規模な量子源、プロセス、検出器の再構築を可能にする。

At large scales, quantum systems may become advantageous over their classical counterparts at performing certain tasks. Developing tools to analyse these systems at the relevant scales, in a manner consistent with quantum mechanics, is therefore critical to benchmarking performance and characterising their operation. While classical computational approaches cannot perform like-for-like computations of quantum systems beyond a certain scale, classical high-performance computing (HPC) may nevertheless be useful for precisely these characterisation and certification tasks. By developing open-source customised algorithms using high-performance computing, we perform quantum tomography on a megascale quantum photonic detector covering a Hilbert space of $10^6$. This requires finding $10^8$ elements of the matrix corresponding to the positive operator valued measure (POVM), the quantum description of the detector, and is achieved in minutes of computation time. Moreover, by exploiting the structure of the problem, we achieve highly efficient parallel scaling, paving the way for quantum objects up to a system size of $10^{12}$ elements to be reconstructed using this method. In general, this shows that a consistent quantum mechanical description of quantum phenomena is applicable at everyday scales. More concretely, this enables the reconstruction of large-scale quantum sources, processes and detectors used in computation and sampling tasks, which may be necessary to prove their nonclassical character or quantum computational advantage.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# 言語誘導型医用画像分割のためのクロスモーダルコンディショニング

Cross-Modal Conditioned Reconstruction for Language-guided Medical Image Segmentation ( http://arxiv.org/abs/2404.02845v1 )

ライセンス: Link先を確認
Xiaoshuang Huang, Hongxiang Li, Meng Cao, Long Chen, Chenyu You, Dong An, (参考訳) 近年の進歩は、医学的な視覚的意味論をより深く理解するために、学習モデルの強化におけるテキスト情報の可能性を強調している。 しかし、言語誘導型医療画像のセグメンテーションは依然として困難な問題に直面している。 以前の作品では、暗黙的かつ曖昧なアーキテクチャを使ってテキスト情報を埋め込んでいる。 これにより、セグメンテーションの結果は、言語によって表現されるセグメンテーションと矛盾し、時には大きく変化する。 そこで本研究では,言語誘導型医用画像分割のためのクロスモーダルコンディショニング(RecLMIS)を提案する。 我々は、関心のパッチや単語を適応的に予測するために条件付き相互作用を導入する。 その後、医療ノートに記載されている地域と整合する相互再建の条件付け因子として活用される。 大規模な実験では、公開されているMosMedData+データセット上でLViTを3.74%上回り、QATA-CoV19データセット上でのクロスドメインテストにおいて平均1.89%のmIoUを達成するという、RecLMISの優位性を実証している。 同時にパラメータ数を20.2%、計算負荷を55.5%削減する。 コードはhttps://github.com/ShashankHuang/RecLMIS.comで入手できる。

Recent developments underscore the potential of textual information in enhancing learning models for a deeper understanding of medical visual semantics. However, language-guided medical image segmentation still faces a challenging issue. Previous works employ implicit and ambiguous architectures to embed textual information. This leads to segmentation results that are inconsistent with the semantics represented by the language, sometimes even diverging significantly. To this end, we propose a novel cross-modal conditioned Reconstruction for Language-guided Medical Image Segmentation (RecLMIS) to explicitly capture cross-modal interactions, which assumes that well-aligned medical visual features and medical notes can effectively reconstruct each other. We introduce conditioned interaction to adaptively predict patches and words of interest. Subsequently, they are utilized as conditioning factors for mutual reconstruction to align with regions described in the medical notes. Extensive experiments demonstrate the superiority of our RecLMIS, surpassing LViT by 3.74% mIoU on the publicly available MosMedData+ dataset and achieving an average increase of 1.89% mIoU for cross-domain tests on our QATA-CoV19 dataset. Simultaneously, we achieve a relative reduction of 20.2% in parameter count and a 55.5% decrease in computational load. The code will be available at https://github.com/ShashankHuang/RecLMIS.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# 推論-最適混合-拡張型大言語モデルに向けて

Toward Inference-optimal Mixture-of-Expert Large Language Models ( http://arxiv.org/abs/2404.02852v1 )

ライセンス: Link先を確認
Longfei Yun, Yonghao Zhuang, Yao Fu, Eric P Xing, Hao Zhang, (参考訳) 最近のMixtralやDeepSeek-MoEのようなMixture-of-Expert(ME)ベースの大規模言語モデル(LLM)は、高密度トランスのトレーニングコストの2次的な増加に悩まされることなく、モデルサイズをスケールする大きな可能性を示している。 トレーニング予算が与えられたら、モデルのサイズとトークンの数に最適な割り当ては、何でしょう? 本研究では, モデル性能, モデルサイズ, データセットサイズ, エキスパート度との関係について, MoE ベースの LLM のスケーリング法則について検討する。 異なる文脈でMoEを研究する以前の研究では、専門家の数の増加が減少する傾向が見られたが、これは、トレーニングコストが一定であり、推論時間中に問題となるため、飽和するまで専門家の数を拡大する必要があることを示唆している。 検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。 少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。 一方、(16/32)の専門家であるMoEのトレーニングは、損失最適ソリューションよりもはるかに小さい(70-85%)が、より大きなトレーニングデータセットはトレーニング予算の下で有望なセットアップである。

Mixture-of-Expert (MoE) based large language models (LLMs), such as the recent Mixtral and DeepSeek-MoE, have shown great promise in scaling model size without suffering from the quadratic growth of training cost of dense transformers. Like dense models, training MoEs requires answering the same question: given a training budget, what is the optimal allocation on the model size and number of tokens? We study the scaling law of MoE-based LLMs regarding the relations between the model performance, model size, dataset size, and the expert degree. Echoing previous research studying MoE in different contexts, we observe the diminishing return of increasing the number of experts, but this seems to suggest we should scale the number of experts until saturation, as the training cost would remain constant, which is problematic during inference time. We propose to amend the scaling law of MoE by introducing inference efficiency as another metric besides the validation loss. We find that MoEs with a few (4/8) experts are the most serving efficient solution under the same performance, but costs 2.5-3.5x more in training. On the other hand, training a (16/32) expert MoE much smaller (70-85%) than the loss-optimal solution, but with a larger training dataset is a promising setup under a training budget.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# 終端から終端までの自己調整型時系列異常検出

End-To-End Self-tuning Self-supervised Time Series Anomaly Detection ( http://arxiv.org/abs/2404.02865v1 )

ライセンス: Link先を確認
Boje Deforce, Meng-Chieh Lee, Bart Baesens, Estefanía Serral Asensio, Jaemin Yoo, Leman Akoglu, (参考訳) 時系列異常検出(TSAD)は、環境センサ、産業用KPI、患者バイオマーカーなど、多くの応用を見出す。 TSADの2倍の課題は、ラベル付きデータなしで様々な種類の時系列異常(スパイク、不連続、トレンドシフトなど)を検出できる汎用的で教師なしのモデルである。 現代のニューラルネットワークは複雑な時系列をモデル化する能力に優れている。 特に自己教師型モデルは、様々な拡張を通じて入力を変換し、トレーニング用の擬似異常を生成することで、教師なしTSADに取り組む。 しかし、それらの性能は、実際には選択が難しい拡張の選択に敏感であり、ラベルのないTSADのためのデータ拡張チューニングに関する文献には何の努力もかからない。 私たちの仕事は、このギャップを埋めることを目的としています。 TSAP for TSA "on autoPilot"を導入する。 差別化可能な拡張アーキテクチャと、拡張型と異常型のアライメントを効果的に評価するための教師なしの検証損失の2つの重要なコンポーネントの上に立つ。 ケーススタディでは、TSAPが(離散的な)拡張タイプと関連する(連続的な)ハイパーパラメータを効果的に選択できることが示されている。 結果として、SOTA自己教師型モデルを含む確立されたベースラインを、異なる異常型を示す様々なTSADタスクで上回ります。

Time series anomaly detection (TSAD) finds many applications such as monitoring environmental sensors, industry KPIs, patient biomarkers, etc. A two-fold challenge for TSAD is a versatile and unsupervised model that can detect various different types of time series anomalies (spikes, discontinuities, trend shifts, etc.) without any labeled data. Modern neural networks have outstanding ability in modeling complex time series. Self-supervised models in particular tackle unsupervised TSAD by transforming the input via various augmentations to create pseudo anomalies for training. However, their performance is sensitive to the choice of augmentation, which is hard to choose in practice, while there exists no effort in the literature on data augmentation tuning for TSAD without labels. Our work aims to fill this gap. We introduce TSAP for TSA "on autoPilot", which can (self-)tune augmentation hyperparameters end-to-end. It stands on two key components: a differentiable augmentation architecture and an unsupervised validation loss to effectively assess the alignment between augmentation type and anomaly type. Case studies show TSAP's ability to effectively select the (discrete) augmentation type and associated (continuous) hyperparameters. In turn, it outperforms established baselines, including SOTA self-supervised models, on diverse TSAD tasks exhibiting different anomaly types.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# Hammersley-Chapman-Robbins境界による機密性の保証

Guarantees of confidentiality via Hammersley-Chapman-Robbins bounds ( http://arxiv.org/abs/2404.02866v1 )

ライセンス: Link先を確認
Kamalika Chaudhuri, Chuan Guo, Laurens van der Maaten, Saeed Mahloujifar, Mark Tygert, (参考訳) ディープニューラルネットワークによる推論中のプライバシ保護は、最終分類器や他のタスク固有のレイヤの前に、最後のレイヤのアクティベーションにノイズを加えることで実現される。 このような層の活性化は、"features"(一般的には"embeddings"や"feature embeddeds"と呼ばれる)として知られている。 ノイズが加わったことで、ノイズのある特徴から入力が復元されるのを防ぐことができる。 入力の可能な全ての非バイアス推定器のばらつきを低くすることは、そのような付加ノイズから生じる機密性を定量化する。 ハマーズリーとチャップマンとロビンズの古典的不等式(HCR境界)から、連続で計算的に計算可能な境界が利用できる。 数値実験により、HCR境界は、画像分類用の10のクラスを含むデータセット "MNIST" と "CIFAR-10" で、小さなニューラルネットに対して有効であることが示唆された。 HCR境界は、標準のディープニューラルネットワークである"ResNet-18"と"Swin-T"を、1000のクラスを含むデータセットである"ImageNet-1000"で事前トレーニングする際の入力の機密性を保証するために、それ自体では不十分であるように見える。 ImageNetの場合、機密性を提供する他の方法による機能へのノイズの追加を補うことは保証される。 いずれの場合も, ノイズによる分類精度の低下がほとんどない付加雑音の量について検討した。 これにより、画像分類作業の精度を大幅に低下させることなく、秘密性を高めることができる。

Protecting privacy during inference with deep neural networks is possible by adding noise to the activations in the last layers prior to the final classifiers or other task-specific layers. The activations in such layers are known as "features" (or, less commonly, as "embeddings" or "feature embeddings"). The added noise helps prevent reconstruction of the inputs from the noisy features. Lower bounding the variance of every possible unbiased estimator of the inputs quantifies the confidentiality arising from such added noise. Convenient, computationally tractable bounds are available from classic inequalities of Hammersley and of Chapman and Robbins -- the HCR bounds. Numerical experiments indicate that the HCR bounds are on the precipice of being effectual for small neural nets with the data sets, "MNIST" and "CIFAR-10," which contain 10 classes each for image classification. The HCR bounds appear to be insufficient on their own to guarantee confidentiality of the inputs to inference with standard deep neural nets, "ResNet-18" and "Swin-T," pre-trained on the data set, "ImageNet-1000," which contains 1000 classes. Supplementing the addition of noise to features with other methods for providing confidentiality may be warranted in the case of ImageNet. In all cases, the results reported here limit consideration to amounts of added noise that incur little degradation in the accuracy of classification from the noisy features. Thus, the added noise enhances confidentiality without much reduction in the accuracy on the task of image classification.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# スマートフォンを用いた人間の活動認識

Human Activity Recognition using Smartphones ( http://arxiv.org/abs/2404.02869v1 )

ライセンス: Link先を確認
Mayur Sonawane, Sahil Rajesh Dhayalkar, Siddesh Waje, Soyal Markhelkar, Akshay Wattamwar, Seema C. Shrawne, (参考訳) ヒトのアクティビティ認識は、今日の大きな研究対象であり、遠隔医療、高齢者のアクティビティトラッキング、障害、カロリーのバーントトラッキングなどに応用されている。 このプロジェクトでは,日々の人間の活動を認識し,消費カロリーをリアルタイムで計算するAndroidアプリケーションを開発した。 まず,スマートフォンの加速度計を用いた3軸加速度測定を行った。 これらの読み出しは中央値フィルタを用いて前処理した。 様々な方法で42の特徴を抽出した。 次に、次元削減とともに、さまざまな機械学習アルゴリズムをテストした。 最後に、Androidアプリケーションでは、機械学習アルゴリズムと、最大精度と最小モデル構築時間を提供する機能のサブセットを使用しました。 これは、メタボリック等価性に基づく式を用いて、リアルタイムな活動認識とカロリー燃焼の計算に使用される。

Human Activity Recognition is a subject of great research today and has its applications in remote healthcare, activity tracking of the elderly or the disables, calories burnt tracking etc. In our project, we have created an Android application that recognizes the daily human activities and calculate the calories burnt in real time. We first captured labeled triaxial acceleration readings for different daily human activities from the smartphone's embedded accelerometer. These readings were preprocessed using a median filter. 42 features were extracted using various methods. We then tested various machine learning algorithms along with dimensionality reduction. Finally, in our Android application, we used the machine learning algorithm and a subset of features that provided maximum accuracy and minimum model building time. This is used for real-time activity recognition and calculation of calories burnt using a formula based on Metabolic Equivalent.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# 実証からLTL仕様を学習する際の説明の統合

Integrating Explanations in Learning LTL Specifications from Demonstrations ( http://arxiv.org/abs/2404.02872v1 )

ライセンス: Link先を確認
Ashutosh Gupta, John Komp, Abhay Singh Rajput, Krishna Shankaranarayanan, Ashutosh Trivedi, Namrita Varshney, (参考訳) 本稿では,LTL(Learar Temporal Logic)の学習を支援する形式として,Large Language Models (LLMs) の最近の進歩が人間の説明の翻訳に有効かどうかを検討する。 LLMと最適化に基づく手法は、デモからLTL仕様を抽出することができるが、それらには明確な制限がある。 LLMはソリューションを迅速に生成し、人間の説明を組み込むことができるが、一貫性の欠如と信頼性の欠如により、安全クリティカルな領域における適用性が損なわれる。 一方、最適化に基づく手法は形式的な保証を提供するが、自然言語の説明を処理できず、スケーラビリティの課題に直面している。 人間の説明や実演をLTL仕様に忠実に翻訳するLLMと最適化に基づく手法を組み合わせるための原則的アプローチを提案する。 私たちはアプローチに基づいてJanakaというツールを実装しました。 本実験は,LTL仕様の学習における説明と実演の併用の有効性について,いくつかのケーススタディを通して検証した。

This paper investigates whether recent advances in Large Language Models (LLMs) can assist in translating human explanations into a format that can robustly support learning Linear Temporal Logic (LTL) from demonstrations. Both LLMs and optimization-based methods can extract LTL specifications from demonstrations; however, they have distinct limitations. LLMs can quickly generate solutions and incorporate human explanations, but their lack of consistency and reliability hampers their applicability in safety-critical domains. On the other hand, optimization-based methods do provide formal guarantees but cannot process natural language explanations and face scalability challenges. We present a principled approach to combining LLMs and optimization-based methods to faithfully translate human explanations and demonstrations into LTL specifications. We have implemented a tool called Janaka based on our approach. Our experiments demonstrate the effectiveness of combining explanations with demonstrations in learning LTL specifications through several case studies.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# ソフト不等式と単調性制約をもつガウス過程の回帰

Gaussian Process Regression with Soft Inequality and Monotonicity Constraints ( http://arxiv.org/abs/2404.02873v1 )

ライセンス: Link先を確認
Didem Kochan, Xiu Yang, (参考訳) ガウス過程 (GP) 回帰は、複素モデルを近似する非パラメトリックベイズフレームワークである。 標準GP回帰は、いくつかの点が実現不可能な値を取ることができる非有界モデルに導かれる。 確率的手法で物理制約を強制する新しいGP法を提案する。 このGPモデルは量子に着想を得たハミルトニアン・モンテカルロ(QHMC)によって訓練される。 QHMCは、広範囲の分布からサンプリングする効率的な方法である。 粒子が一定の質量を持つ標準的なハミルトニアンモンテカルロアルゴリズムとは異なり、QHMCは粒子が確率分布を持つランダムな質量行列を持つことを許す。 確率論的意味での不等式と単調性に制約されたGP回帰にQHMC法を導入することにより,提案手法は精度を向上し,結果のGPモデルのばらつきを低減する。 提案手法は, 精度を保ちながらサンプリングプロセスを高速化する手法として有効であり, 高次元問題にも適用可能である。

Gaussian process (GP) regression is a non-parametric, Bayesian framework to approximate complex models. Standard GP regression can lead to an unbounded model in which some points can take infeasible values. We introduce a new GP method that enforces the physical constraints in a probabilistic manner. This GP model is trained by the quantum-inspired Hamiltonian Monte Carlo (QHMC). QHMC is an efficient way to sample from a broad class of distributions. Unlike the standard Hamiltonian Monte Carlo algorithm in which a particle has a fixed mass, QHMC allows a particle to have a random mass matrix with a probability distribution. Introducing the QHMC method to the inequality and monotonicity constrained GP regression in the probabilistic sense, our approach improves the accuracy and reduces the variance in the resulting GP model. According to our experiments on several datasets, the proposed approach serves as an efficient method as it accelerates the sampling process while maintaining the accuracy, and it is applicable to high dimensional problems.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# FlightScope:衛星画像における航空機検出アルゴリズムの総合評価

FlightScope: A Deep Comprehensive Assessment of Aircraft Detection Algorithms in Satellite Imagery ( http://arxiv.org/abs/2404.02877v1 )

ライセンス: Link先を確認
Safouane El Ghazouali, Arnaud Gucciardi, Nicola Venturi, Michael Rueegsegger, Umberto Michelucci, (参考訳) リモートセンシングされた衛星画像における物体検出は、生物物理学や環境モニタリングなど多くの分野において基本的なものである。 ディープラーニングのアルゴリズムは常に進化しているが、それらは主に、人気の高い地上写真で実装され、テストされている。 本稿では,衛星画像中の航空機を識別するタスク用にカスタマイズされた,高度な物体検出アルゴリズム群を批判的に評価し,比較する。 大規模なHRPlanesV2データセットとGDITデータセットとの厳密な検証を併用して、この研究は、YOLOバージョン5と8、高速RCNN、CenterNet、RetinaNet、RTMDet、DETRなどを含む一連の方法論をスクラッチからトレーニングする。 この徹底的なトレーニングと検証研究により、YOLOv5は、リモートセンシングデータから航空機を識別し、多様な撮像条件で高精度かつ適応性を示すための最重要モデルであることが判明した。 YOLOv5は空中物体検出の堅牢なソリューションとして登場し、平均値の精度、リコール、ユニオン点数に対するインターセクションなどによってその重要性を浮き彫りにした。 ここでは,衛星画像解析の要求に応じたアルゴリズム選択の基本的役割を明らかにし,モデルの有効性を評価するための包括的な枠組みを拡張した。 ベンチマークツールキットとコードはhttps://github.com/toelt-llc/FlightScope_Benchを通じて利用可能であり、リモートセンシングオブジェクト検出の領域におけるさらなる探索と革新を目的としており、衛星画像アプリケーションにおける分析方法論の改善の道を開くことを目的としている。

Object detection in remotely sensed satellite pictures is fundamental in many fields such as biophysical, and environmental monitoring. While deep learning algorithms are constantly evolving, they have been mostly implemented and tested on popular ground-based taken photos. This paper critically evaluates and compares a suite of advanced object detection algorithms customized for the task of identifying aircraft within satellite imagery. Using the large HRPlanesV2 dataset, together with a rigorous validation with the GDIT dataset, this research encompasses an array of methodologies including YOLO versions 5 and 8, Faster RCNN, CenterNet, RetinaNet, RTMDet, and DETR, all trained from scratch. This exhaustive training and validation study reveal YOLOv5 as the preeminent model for the specific case of identifying airplanes from remote sensing data, showcasing high precision and adaptability across diverse imaging conditions. This research highlight the nuanced performance landscapes of these algorithms, with YOLOv5 emerging as a robust solution for aerial object detection, underlining its importance through superior mean average precision, Recall, and Intersection over Union scores. The findings described here underscore the fundamental role of algorithm selection aligned with the specific demands of satellite imagery analysis and extend a comprehensive framework to evaluate model efficacy. The benchmark toolkit and codes, available via https://github.com/toelt-llc/FlightScope_Bench, aims to further exploration and innovation in the realm of remote sensing object detection, paving the way for improved analytical methodologies in satellite imagery applications.
翻訳日:2024-04-04 16:50:16 公開日:2024-04-03
# 線形注意シーケンス並列性

Linear Attention Sequence Parallelism ( http://arxiv.org/abs/2404.02882v1 )

ライセンス: Link先を確認
Weigao Sun, Zhen Qin, Dong Li, Xuyang Shen, Yu Qiao, Yiran Zhong, (参考訳) Sequence Parallel (SP)は、単一のGPUのメモリ限界を超える長いシーケンスを扱うための一般的な戦略である。 しかし,既存のSP手法は線形注意の特徴を生かせず,線形注意に基づく言語モデルに対する準最適並列性効率とユーザビリティをもたらす。 本稿では,線形注意に基づく言語モデルに適した効率的なSP手法であるLinear Attention Sequence Parallel(LASP)を提案する。 具体的には、線形アテンションの右産物カーネルトリックを活用するための効率的なポイントツーポイント通信機構を設計し、SPの通信オーバーヘッドを劇的に削減する。 また、カーネルフュージョンと中間状態キャッシュを実行することで、LASPの実用効率を高め、GPUクラスタ上でのLASPハードウェアフレンドリな実装を実現した。 さらに、長いシーケンスと大きなバッチを持つ大規模クラスタ上での分散トレーニングに不可欠であるバッチレベルのデータ並列メソッドのすべてのタイプとのシーケンスレベルのLASPの互換性を慎重に保証する。 異なるシーケンス長とGPUクラスタサイズを持つ2つの線形アテンションベースモデルについて広範な実験を行った。 LASPは1Bモデル上で128のA100 80G GPUを使用してシーケンス長を最大4096Kまでスケールする。 コードはhttps://github.com/OpenNLPLab/LASP.comで公開されている。

Sequence Parallel (SP) serves as a prevalent strategy to handle long sequences that exceed the memory limit of a single GPU. However, existing SP methods do not take advantage of linear attention features, resulting in sub-optimal parallelism efficiency and usability for linear attention-based language models. In this paper, we introduce Linear Attention Sequence Parallel (LASP), an efficient SP method tailored to linear attention-based language models. Specifically, we design an efficient point-to-point communication mechanism to leverage the right-product kernel trick of linear attention, which sharply decreases the communication overhead of SP. We also enhance the practical efficiency of LASP by performing kernel fusion and intermediate state caching, making the implementation of LASP hardware-friendly on GPU clusters. Furthermore, we meticulously ensure the compatibility of sequence-level LASP with all types of batch-level data parallel methods, which is vital for distributed training on large clusters with long sequences and large batches. We conduct extensive experiments on two linear attention-based models with varying sequence lengths and GPU cluster sizes. LASP scales sequence length up to 4096K using 128 A100 80G GPUs on 1B models, which is 8 times longer than existing SP methods while being significantly faster. The code is available at https://github.com/OpenNLPLab/LASP.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# 拡散に基づくテキスト・画像生成のスケーラビリティについて

On the Scalability of Diffusion-based Text-to-Image Generation ( http://arxiv.org/abs/2404.02883v1 )

ライセンス: Link先を確認
Hao Li, Yang Zou, Ying Wang, Orchid Majumder, Yusheng Xie, R. Manmatha, Ashwin Swaminathan, Zhuowen Tu, Stefano Ermon, Stefano Soatto, (参考訳) モデルとデータサイズをスケールアップすることは、LLMの進化に非常に成功した。 しかし,拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング法則は十分には検討されていない。 また、コスト削減によるパフォーマンス向上のためにモデルを効率的にスケールする方法も不明である。 異なるトレーニング設定と高価なトレーニングコストは、公正なモデル比較を極めて困難にします。 本研究では,拡散に基づくT2Iモデルのスケーリング特性を,最大6億枚までのデータセット上の0.4Bから4BのパラメータをトレーニングしたUNetとTransformerの変種を含む,広範かつ厳密なバックボーンとトレーニングセットのスケーリングの短縮によって実証的に研究する。 モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。 また、トランスブロックの増加は、チャネル数の増加よりもテキスト画像のアライメントを改善するためのパラメータ効率が高い。 次に、SDXLのUNetよりも45%小さく、28%高速な効率的なUNet変種を同定する。 データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。 キャプション密度と多様性の向上により、テキストのアライメント性能と学習効率が向上する。 最後に、モデルサイズ、計算量、データセットサイズのスケールの関数として、テキスト画像のアライメント性能を予測するためのスケーリング機能を提供します。

Scaling up model and data size has been quite successful for the evolution of LLMs. However, the scaling law for the diffusion based text-to-image (T2I) models is not fully explored. It is also unclear how to efficiently scale the model for better performance at reduced cost. The different training settings and expensive training cost make a fair model comparison extremely difficult. In this work, we empirically study the scaling properties of diffusion based T2I models by performing extensive and rigours ablations on scaling both denoising backbones and training set, including training scaled UNet and Transformer variants ranging from 0.4B to 4B parameters on datasets upto 600M images. For model scaling, we find the location and amount of cross attention distinguishes the performance of existing UNet designs. And increasing the transformer blocks is more parameter-efficient for improving text-image alignment than increasing channel numbers. We then identify an efficient UNet variant, which is 45% smaller and 28% faster than SDXL's UNet. On the data scaling side, we show the quality and diversity of the training set matters more than simply dataset size. Increasing caption density and diversity improves text-image alignment performance and the learning efficiency. Finally, we provide scaling functions to predict the text-image alignment performance as functions of the scale of model size, compute and dataset size.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# PoCo:RGBD屋内位置認識のためのポイントコンテキストクラスタ

PoCo: Point Context Cluster for RGBD Indoor Place Recognition ( http://arxiv.org/abs/2404.02885v1 )

ライセンス: Link先を確認
Jing Liang, Zhuo Deng, Zheming Zhou, Omid Ghasemalizadeh, Dinesh Manocha, Min Sun, Cheng-Hao Kuo, Arnie Sen, (参考訳) 本稿では,屋内RGB-D位置認識タスクのための新しいエンドツーエンドアルゴリズム(PoCo)を提案する。 このタスクは、視野の制約や知覚センサーの制限による固有の課題を提示する。 本稿では,最近のコンテキスト・オブ・クラスタ(CoC)を一般化したネットワークアーキテクチャを提案する。 さらに,グローバルな記述子表現を強化するために,色と幾何学的モダリティをポイント特徴に統合してアーキテクチャを開発する。 公開データセットであるScanNet-PRとARKitをそれぞれ807シナリオと5047シナリオで評価した。 ScanNet-PRでは64.63%のR@1、ベストパブリッシュされた結果CGis(61.12%)から5.7%の改善、Arkitでは45.12%のR@1、ベストパブリッシュされた結果CGis(39.82%)から13.3%の改善。 また,PoCoは推定時間(1.75倍高速)においてCGisよりも高い効率を示し,実環境下での認識におけるPoCoの有効性を示した。

We present a novel end-to-end algorithm (PoCo) for the indoor RGB-D place recognition task, aimed at identifying the most likely match for a given query frame within a reference database. The task presents inherent challenges attributed to the constrained field of view and limited range of perception sensors. We propose a new network architecture, which generalizes the recent Context of Clusters (CoCs) to extract global descriptors directly from the noisy point clouds through end-to-end learning. Moreover, we develop the architecture by integrating both color and geometric modalities into the point features to enhance the global descriptor representation. We conducted evaluations on public datasets ScanNet-PR and ARKit with 807 and 5047 scenarios, respectively. PoCo achieves SOTA performance: on ScanNet-PR, we achieve R@1 of 64.63%, a 5.7% improvement from the best-published result CGis (61.12%); on Arkit, we achieve R@1 of 45.12%, a 13.3% improvement from the best-published result CGis (39.82%). In addition, PoCo shows higher efficiency than CGis in inference time (1.75X-faster), and we demonstrate the effectiveness of PoCo in recognizing places within a real-world laboratory environment.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# Steganographic Passport: 再トレーニングなしでのディープモデルIP保護のための所有者とユーザ認証

Steganographic Passport: An Owner and User Verifiable Credential for Deep Model IP Protection Without Retraining ( http://arxiv.org/abs/2404.02889v1 )

ライセンス: Link先を確認
Qi Cui, Ruohan Meng, Chaohui Xu, Chip-Hong Chang, (参考訳) ディープモデルの法的な使用を保証することは、信頼性、説明責任、責任のある人工知能イノベーションを促進するために不可欠である。 ライセンス・ツー・ユースとオーナシップの検証のためにモデル機能を難なくするパスポートベースの現在の手法は、新しいユーザのためにオーナモデルを再トレーニングする必要があるため、キャパシティと品質の制約に悩まされている。 また、高度なResidual Block ambiguity攻撃にも脆弱である。 本稿では,ユーザIDイメージを所有者側のパスポートに隠蔽し,各ユーザ側のパスポートから復元することで,ライセンスの所有権確認から利用を分離するために,非可逆なステガノグラフネットワークを使用するステガノグラフパスポートを提案する。 誘導されたユーザ側パスポートからオーナー側パスポートが露出されることを回避し、モデルシグネチャの独自性を高めるために、不可逆かつ衝突耐性のハッシュ関数を用いる。 パスポートとモデルウェイトの両方を高度なあいまいさ攻撃から保護するために、オーナーモデルの検証ブランチに対してアクティベーションレベルの難読化を提案する。 検証とデプロイメントのブランチを共同でトレーニングすることで、その重みは密結合になる。 提案手法は,新しいユーザ全員の受け入れのために,個別のモデル再トレーニングを必要とせずに,強力なオーナシップ証明とライセンス説明責任を提供することで,ディープモデルのアジャイルライセンスを支援する。 実験の結果,我々のステガノグラフパスポートは,他のパスポートベースのディープモデル保護手法よりも,様々な既知の攻撃に対して堅牢性が高いことがわかった。

Ensuring the legal usage of deep models is crucial to promoting trustable, accountable, and responsible artificial intelligence innovation. Current passport-based methods that obfuscate model functionality for license-to-use and ownership verifications suffer from capacity and quality constraints, as they require retraining the owner model for new users. They are also vulnerable to advanced Expanded Residual Block ambiguity attacks. We propose Steganographic Passport, which uses an invertible steganographic network to decouple license-to-use from ownership verification by hiding the user's identity images into the owner-side passport and recovering them from their respective user-side passports. An irreversible and collision-resistant hash function is used to avoid exposing the owner-side passport from the derived user-side passports and increase the uniqueness of the model signature. To safeguard both the passport and model's weights against advanced ambiguity attacks, an activation-level obfuscation is proposed for the verification branch of the owner's model. By jointly training the verification and deployment branches, their weights become tightly coupled. The proposed method supports agile licensing of deep models by providing a strong ownership proof and license accountability without requiring a separate model retraining for the admission of every new user. Experiment results show that our Steganographic Passport outperforms other passport-based deep model protection methods in robustness against various known attacks.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# 物質を持つ1+1D $\mathbb{Z}_2$格子ゲージ理論の平均場理論

Mean-field theory of 1+1D $\mathbb{Z}_2$ lattice gauge theory with matter ( http://arxiv.org/abs/2404.02890v1 )

ライセンス: Link先を確認
Matjaž Kebrič, Ulrich Schollwöck, Fabian Grusdt, (参考訳) 格子ゲージ理論(LGT)は、強い相関多体系における問題に対する貴重な洞察を与える。 ゲージ場に物質が結合されたときに生じる閉じ込めは、LGT形式が基礎となるメカニズムを説明することのできる開問題の1つである。 しかし、力学電荷への結合ゲージ場は、問題の理論的および実験的処理を複雑にする。 したがって、単純化された平均場理論は、これらの複雑なシステムに対する新たな洞察を得る方法の1つである。 ここでは、1+1D $\mathbb{Z}_2$格子ゲージ理論と超伝導ペア項を持つ格子ゲージ理論の平均場理論を、平均場レベルでガウス法則を強制しながら電荷と$\mathbb{Z}_2$フィールドを疎結合することによって展開する。 まず、閉包の文脈で元のモデルの位相図を定め、北エフ鎖の対称性で保護された位相遷移を閉包遷移とすることができる。 次に、実効平均場理論の位相図を計算し、元のLGTの主な特徴を正確に捉える。 これはグリーン関数の結果と基底状態エネルギーの直接比較によってさらに確認される。 この単純なLGTは、最先端のコールド原子実験で実装することができる。 また,実験装置で容易にアクセス可能な弦長ヒストグラムや電場偏光も検討し,様々な位相を確実に捉えることを示す。

Lattice gauge theories (LGTs) provide valuable insights into problems in strongly correlated many-body systems. Confinement which arises when matter is coupled to gauge fields is just one of the open problems, where LGT formalism can explain the underlying mechanism. However, coupling gauge fields to dynamical charges complicates the theoretical and experimental treatment of the problem. Developing a simplified mean-field theory is thus one of the ways to gain new insights into these complicated systems. Here we develop a mean-field theory of a paradigmatic 1+1D $\mathbb{Z}_2$ lattice gauge theory with superconducting pairing term, the gauged Kitaev chain, by decoupling charge and $\mathbb{Z}_2$ fields while enforcing the Gauss law on the mean-field level. We first determine the phase diagram of the original model in the context of confinement, which allows us to identify the symmetry-protected topological transition in the Kitaev chain as a confinement transition. We then compute the phase diagram of the effective mean-field theory, which correctly captures the main features of the original LGT. This is furthermore confirmed by the Green's function results and a direct comparison of the ground state energy. This simple LGT can be implemented in state-of-the art cold atom experiments. We thus also consider string-length histograms and the electric field polarization, which are easily accessible quantities in experimental setups and show that they reliably capture the various phases.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# MODNO:分散ニューラルネットワークによるマルチオペレータ学習

MODNO: Multi Operator Learning With Distributed Neural Operators ( http://arxiv.org/abs/2404.02892v1 )

ライセンス: Link先を確認
Zecheng Zhang, (参考訳) 演算子学習の研究には、ニューラルネットワークを近似演算子に利用することが含まれる。 従来はシングルオペレータラーニング(SOL)に重点を置いてきた。 しかし、近年の進歩により、数百万から数十億のトレーニング可能なパラメータを備えた基礎モデルを用いて、複数の演算子の近似を含むように急速に拡張され、マルチ演算学習(MOL)の研究へと繋がった。 本稿では,より少ないパラメータを持つ1つのニューラル演算子に対して,新たな平均コストを伴わずに,マルチオペレータ学習の課題に効果的に取り組むための分散トレーニング手法を提案する。 本手法は,Deep Operator Neural Networks (DON) などのChen-Chen型ニューラルネットワークに適用可能である。 中心となる考え方は、各演算子の出力基底関数を専用のデータを使って独立に学習し、同時にデータセット全体を使用してすべての演算子が共有する入力関数の学習を集中させることである。 5つの数値例の体系的な研究を通じて、各演算子に対して1つのニューラル演算子を個別に訓練する精度とコストを、提案手法を用いてMOLモデルを訓練することと比較した。 その結果,効率が向上し,精度も良好であった。 さらに,本手法では,MOL学習を通じて類似演算子のデータを用いて,限られたデータを持つ演算子をより効率的に構築できることを示す。 これは、演算子学習を促進する別のMOLの可能性を強調します。

The study of operator learning involves the utilization of neural networks to approximate operators. Traditionally, the focus has been on single-operator learning (SOL). However, recent advances have rapidly expanded this to include the approximation of multiple operators using foundation models equipped with millions or billions of trainable parameters, leading to the research of multi-operator learning (MOL). In this paper, we present a novel distributed training approach aimed at enabling a single neural operator with significantly fewer parameters to effectively tackle multi-operator learning challenges, all without incurring additional average costs. Our method is applicable to various Chen-Chen-type neural operators, such as Deep Operator Neural Networks (DON). The core idea is to independently learn the output basis functions for each operator using its dedicated data, while simultaneously centralizing the learning of the input function encoding shared by all operators using the entire dataset. Through a systematic study of five numerical examples, we compare the accuracy and cost of training a single neural operator for each operator independently versus training a MOL model using our proposed method. Our results demonstrate enhanced efficiency and satisfactory accuracy. Moreover, our approach illustrates that some operators with limited data can be more effectively constructed with the aid of data from analogous operators through MOL learning. This highlights another MOL's potential to bolster operator learning.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# ChatGLM-Math: 自己批判パイプラインを用いた大規模言語モデルの数学的問題解決

ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline ( http://arxiv.org/abs/2404.02893v1 )

ライセンス: Link先を確認
Yifan Xu, Xiao Liu, Xinghan Liu, Zhenyu Hou, Yueyan Li, Xiaohan Zhang, Zihan Wang, Aohan Zeng, Zhengxiao Du, Wenyi Zhao, Jie Tang, Yuxiao Dong, (参考訳) 大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。 LLMの数学を強化するための多くの戦略やデータセットが開発されているが、LLMシステムの言語能力と数学的能力の両方を同時に維持・改善することは依然として課題であり、本研究では、LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整する。 まず、LLM自体から一般的なMath-Critiqueモデルをトレーニングし、フィードバック信号を提供する。 次に、データ収集のためにLLMの世代に対して、拒否的微調整と直接選好最適化を順次採用する。 ChatGLM3-32Bに基づいて、学術的および新たに作成した挑戦的データセットMathUserEvalについて、一連の実験を行った。 その結果,LLMの2倍の精度で,LLMの言語能力は向上しつつも,LLMの数学的問題解決を著しく向上させることが示唆された。 関連技術がChatGLM\footnote{\url{https://chatglm.cn}}にデプロイされている。 関連する評価データセットとスクリプトは \url{https://github.com/THUDM/ChatGLM-Math} でリリースされる。

Large language models (LLMs) have shown excellent mastering of human language, but still struggle in real-world applications that require mathematical problem-solving. While many strategies and datasets to enhance LLMs' mathematics are developed, it remains a challenge to simultaneously maintain and improve both language and mathematical capabilities in deployed LLM systems.In this work, we tailor the Self-Critique pipeline, which addresses the challenge in the feedback learning stage of LLM alignment. We first train a general Math-Critique model from the LLM itself to provide feedback signals. Then, we sequentially employ rejective fine-tuning and direct preference optimization over the LLM's own generations for data collection. Based on ChatGLM3-32B, we conduct a series of experiments on both academic and our newly created challenging dataset, MathUserEval. Results show that our pipeline significantly enhances the LLM's mathematical problem-solving while still improving its language ability, outperforming LLMs that could be two times larger. Related techniques have been deployed to ChatGLM\footnote{\url{https://chatglm.cn}}, an online serving LLM. Related evaluation dataset and scripts are released at \url{https://github.com/THUDM/ChatGLM-Math}.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# 自動透明性:デジタルサービス法透明性データベースの法的および実証分析

Automated Transparency: A Legal and Empirical Analysis of the Digital Services Act Transparency Database ( http://arxiv.org/abs/2404.02894v1 )

ライセンス: Link先を確認
Rishabh Kaushal, Jacob van de Kerkhof, Catalina Goanta, Gerasimos Spanakis, Adriana Iamnitchi, (参考訳) デジタルサービス法(DSA、Digital Services Act)は、2022年11月1日に採択された欧州連合のプラットフォーム責任改革である。 その他の義務の中で、DSAは、オンラインプラットフォームがコンテンツモデレーションの決定を報告する必要性を強調しています('理由のステートメント' - SoRs')。 SoRは現在、2023年9月に欧州委員会によってローンチされたDSA Transparency Databaseで利用可能である。 DSA Transparency Databaseは、プラットフォームガバナンスにおける歴史的な成果であり、構造レベルでもプラットフォームコンプライアンスのレベルでも、実際の透明性向上に関する調査を可能にする。 本研究の目的は,透明性データベースがDSAの透明性の約束を果たすのに役立つかどうかを理解することである。 現在のデータベース構造は、透明性のプラクティスの観点からプラットフォームから多くの判断を下すことができるので、透明性が向上する一方で、コンプライアンスが問題であることを示すために、法律的および実証的な議論を使用します。 本研究では,2023年11月に提出されたTransparency Database (131m SoRs) の代表例を分析し,プラットフォームコンテンツモデレーションの実践を特徴づけ,評価する。

The Digital Services Act (DSA) is a much awaited platforms liability reform in the European Union that was adopted on 1 November 2022 with the ambition to set a global example in terms of accountability and transparency. Among other obligations, the DSA emphasizes the need for online platforms to report on their content moderation decisions (`statements of reasons' - SoRs), which is a novel transparency mechanism we refer to as automated transparency in this study. SoRs are currently made available in the DSA Transparency Database, launched by the European Commission in September 2023. The DSA Transparency Database marks a historical achievement in platform governance, and allows investigations about the actual transparency gains, both at structure level as well as at the level of platform compliance. This study aims to understand whether the Transparency Database helps the DSA to live up to its transparency promises. We use legal and empirical arguments to show that while there are some transparency gains, compliance remains problematic, as the current database structure allows for a lot of discretion from platforms in terms of transparency practices. In our empirical study, we analyze a representative sample of the Transparency Database (131m SoRs) submitted in November 2023, to characterise and evaluate platform content moderation practices.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# 微分方程式による機械学習保存法則」へのコメント

Comment on "Machine learning conservation laws from differential equations" ( http://arxiv.org/abs/2404.02896v1 )

ライセンス: Link先を確認
Michael F. Zimmer, (参考訳) 1段落は、著者が1D減衰した高調波発振器[1]の運動定数を導出した6ヶ月後、著者に言及せずに、リウ、マダヴァン、テグマルク [2, 3] によっても同様の結果が現れた。 しかし、その導出には重大な誤りが6つ含まれており、それぞれの方法と結果が間違っていた。 このコメントでは、これらのエラーがレビューされる。

In lieu of abstract, first paragraph reads: Six months after the author derived a constant of motion for a 1D damped harmonic oscillator [1], a similar result appeared by Liu, Madhavan, and Tegmark [2, 3], without citing the author. However, their derivation contained six serious errors, causing both their method and result to be incorrect. In this Comment, those errors are reviewed.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# Deep Image compositionが画像偽造と出会う

Deep Image Composition Meets Image Forgery ( http://arxiv.org/abs/2404.02897v1 )

ライセンス: Link先を確認
Eren Tahir, Mert Bal, (参考訳) 画像偽造は長年研究されてきた話題である。 深層学習のブレークスルーの前に、訓練を必要としない手作りの特徴を用いて、偽造画像が検出された。 これらの従来の手法は、実際の画像操作よりも品質がはるかに悪いデータセットでも十分に機能しなかった。 ディープラーニングの進歩は、画像の偽造検出に影響を及ぼし、コンピュータビジョンの他の領域にも影響を与えた。 ディープラーニングモデルは、トレーニングのために大量のラベル付きデータを必要とする。 画像偽造の場合、ピクセルレベルでラベル付けされたデータは、学習するモデルにとって非常に重要な要素である。 既存のデータセットには、十分なサイズ、リアリズム、ピクセルレベルのラベルを同時に持つものはありません。 これは、高品質な画像の生成とラベル付けのコストが高いためである。 画像編集の専門家が1つの画像を操作するのに何時間もかかります。 このギャップを埋めるために、画像偽造と非常に関係のある画像合成技術を用いて、データ生成を自動化する。 他の自動データ生成フレームワークとは異なり、私たちは最先端の画像合成ディープラーニングモデルを使用して、実生活における操作の品質に近いスプライシング画像を生成する。 最後に、SOTA画像操作検出モデル上で生成されたデータセットを検証し、既存のデータセットに比べて予測性能が低いことを示す。 Datasetはhttps://github.com/99eren99/DIS25kで利用可能になる。

Image forgery is a topic that has been studied for many years. Before the breakthrough of deep learning, forged images were detected using handcrafted features that did not require training. These traditional methods failed to perform satisfactorily even on datasets much worse in quality than real-life image manipulations. Advances in deep learning have impacted image forgery detection as much as they have impacted other areas of computer vision and have improved the state of the art. Deep learning models require large amounts of labeled data for training. In the case of image forgery, labeled data at the pixel level is a very important factor for the models to learn. None of the existing datasets have sufficient size, realism and pixel-level labeling at the same time. This is due to the high cost of producing and labeling quality images. It can take hours for an image editing expert to manipulate just one image. To bridge this gap, we automate data generation using image composition techniques that are very related to image forgery. Unlike other automated data generation frameworks, we use state of the art image composition deep learning models to generate spliced images close to the quality of real-life manipulations. Finally, we test the generated dataset on the SOTA image manipulation detection model and show that its prediction performance is lower compared to existing datasets, i.e. we produce realistic images that are more difficult to detect. Dataset will be available at https://github.com/99eren99/DIS25k .
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# MatAtlas: テキスト駆動の一貫性幾何テクスチャとマテリアルアサイン

MatAtlas: Text-driven Consistent Geometry Texturing and Material Assignment ( http://arxiv.org/abs/2404.02899v1 )

ライセンス: Link先を確認
Duygu Ceylan, Valentin Deschaintre, Thibault Groueix, Rosalie Martin, Chun-Hao Huang, Romain Rouffet, Vladimir Kim, Gaëtan Lassagne, (参考訳) テキスト誘導型3次元モデルテクスチャの一貫した手法であるMatAtlasを提案する。 最近の進歩の後、我々は3Dモデルのテクスチャ前処理として大規模なテキスト・画像生成モデル(例えば、安定拡散)を活用している。 我々は、深さとエッジによって駆動されるグリッドパターン拡散を利用するRGBテクスチャパイプラインを慎重に設計する。 多段階のテクスチャリファインメントプロセスを提案することにより、テクスチャ出力の品質と3次元一貫性を大幅に改善する。 焼き込み照明の問題点をさらに解決するため、RGB色を超えてパラメトリック素材を資産に割り当てる。 高品質なRGBテクスチャを前提として,Large Language Models (LLM) を利用した新しい素材検索手法を提案する。 本手法は多種多様なジオメトリーで評価し,先行技術よりも優れていたことを示す。 また,各成分の役割を詳細なアブレーション研究により分析した。

We present MatAtlas, a method for consistent text-guided 3D model texturing. Following recent progress we leverage a large scale text-to-image generation model (e.g., Stable Diffusion) as a prior to texture a 3D model. We carefully design an RGB texturing pipeline that leverages a grid pattern diffusion, driven by depth and edges. By proposing a multi-step texture refinement process, we significantly improve the quality and 3D consistency of the texturing output. To further address the problem of baked-in lighting, we move beyond RGB colors and pursue assigning parametric materials to the assets. Given the high-quality initial RGB texture, we propose a novel material retrieval method capitalized on Large Language Models (LLM), enabling editabiliy and relightability. We evaluate our method on a wide variety of geometries and show that our method significantly outperform prior arts. We also analyze the role of each component through a detailed ablation study.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# DeiT-LT蒸留による長期データセットの視覚変換器訓練

DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets ( http://arxiv.org/abs/2404.02900v1 )

ライセンス: Link先を確認
Harsh Rangwani, Pradipto Mondal, Mayank Mishra, Ashish Ramayee Asokan, R. Venkatesh Babu, (参考訳) Vision Transformer (ViT) は様々なコンピュータビジョンタスクの顕著なアーキテクチャとして登場した。 ViTでは、入力画像をパッチトークンに分割し、セルフアテンションブロックのスタックを通して処理する。 しかし、畳み込みニューラルネットワーク(CNN)とは異なり、ViTsの単純なアーキテクチャは情報的帰納バイアス(例えば、局所性、etc)を持たない。 このため、ViTは事前トレーニングに大量のデータを必要とする。 バランスの取れたデータセットを効果的にトレーニングするために、様々なデータ効率のアプローチ(DeiT)が提案されている。 しかし、長い尾の不均衡を持つデータセットに対するViTの使用について、限られた文献で論じている。 本研究では,長い尾を持つデータセット上で,ViTをスクラッチからトレーニングする問題に対処するためにDeiT-LTを導入する。 DeiT-LTでは, 蒸留DISTトークンを用いてCNNからの蒸留を効率よく, 効果的に行う方法を紹介した。 これにより、初期のViTブロックでローカルCNNのような機能を学ぶことができ、テールクラスの一般化が向上した。 さらに, オーバーフィッティングを緩和するため, 平らなCNN教師からの蒸留を提案し, 全VTブロックにまたがるDISTトークンの低ランク一般化可能な特徴を学習する。 提案したDeiT-LTスキームでは、蒸留DISTトークンはテールクラスのエキスパートとなり、分類器CRSトークンはヘッドクラスのエキスパートとなる。 専門家は、同じViTアーキテクチャ内で異なるトークンセットを使用して、多数派クラスと少数派クラスの両方に対応する機能を効果的に学習するのに役立つ。 我々は,小型CIFAR-10 LTから大規模iNaturalist-2018までのデータセット上で,スクラッチからViTをトレーニングするためのDeiT-LTの有効性を示す。

Vision Transformer (ViT) has emerged as a prominent architecture for various computer vision tasks. In ViT, we divide the input image into patch tokens and process them through a stack of self attention blocks. However, unlike Convolutional Neural Networks (CNN), ViTs simple architecture has no informative inductive bias (e.g., locality,etc. ). Due to this, ViT requires a large amount of data for pre-training. Various data efficient approaches (DeiT) have been proposed to train ViT on balanced datasets effectively. However, limited literature discusses the use of ViT for datasets with long-tailed imbalances. In this work, we introduce DeiT-LT to tackle the problem of training ViTs from scratch on long-tailed datasets. In DeiT-LT, we introduce an efficient and effective way of distillation from CNN via distillation DIST token by using out-of-distribution images and re-weighting the distillation loss to enhance focus on tail classes. This leads to the learning of local CNN-like features in early ViT blocks, improving generalization for tail classes. Further, to mitigate overfitting, we propose distilling from a flat CNN teacher, which leads to learning low-rank generalizable features for DIST tokens across all ViT blocks. With the proposed DeiT-LT scheme, the distillation DIST token becomes an expert on the tail classes, and the classifier CLS token becomes an expert on the head classes. The experts help to effectively learn features corresponding to both the majority and minority classes using a distinct set of tokens within the same ViT architecture. We show the effectiveness of DeiT-LT for training ViT from scratch on datasets ranging from small-scale CIFAR-10 LT to large-scale iNaturalist-2018.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# LidarDM:世代別世界における世代別LiDARシミュレーション

LidarDM: Generative LiDAR Simulation in a Generated World ( http://arxiv.org/abs/2404.02903v1 )

ライセンス: Link先を確認
Vlas Zyrianov, Henry Che, Zhijian Liu, Shenlong Wang, (参考訳) 我々は、リアルでレイアウト対応で、物理的に可視で、時間的にコヒーレントなLiDARビデオを生成することができる、新しいLiDAR生成モデルLidarDMを提案する。 LidarDMは、LiDAR生成モデルにおける前例のない2つの能力で際立っている。 一 運転シナリオにより誘導されたLiDAR生成であって、自律運転シミュレーションに重要な可能性を有するもの (II) 4次元LiDAR点雲の生成により、現実的かつ時間的に整合したシーケンスの生成が可能となる。 私たちのモデルの中心は、新しい4Dワールドジェネレーションフレームワークです。 具体的には、潜時拡散モデルを用いて3次元シーンを生成し、それを動的アクターと組み合わせて基礎となる4次元世界を形成し、その仮想環境内で現実的な感覚観察を生成する。 提案手法は,現実性,時間的コヒーレンシ,レイアウト整合性において,競合するアルゴリズムよりも優れていることを示す。 また、LidarDMは、知覚モデルのトレーニングとテストのための生成ワールドモデルシミュレータとして使用できることを示す。

We present LidarDM, a novel LiDAR generative model capable of producing realistic, layout-aware, physically plausible, and temporally coherent LiDAR videos. LidarDM stands out with two unprecedented capabilities in LiDAR generative modeling: (i) LiDAR generation guided by driving scenarios, offering significant potential for autonomous driving simulations, and (ii) 4D LiDAR point cloud generation, enabling the creation of realistic and temporally coherent sequences. At the heart of our model is a novel integrated 4D world generation framework. Specifically, we employ latent diffusion models to generate the 3D scene, combine it with dynamic actors to form the underlying 4D world, and subsequently produce realistic sensory observations within this virtual environment. Our experiments indicate that our approach outperforms competing algorithms in realism, temporal coherency, and layout consistency. We additionally show that LidarDM can be used as a generative world model simulator for training and testing perception models.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# ALOHa: カプセル化モデルにおける幻覚の新しい尺度

ALOHa: A New Measure for Hallucination in Captioning Models ( http://arxiv.org/abs/2404.02904v1 )

ライセンス: Link先を確認
Suzanne Petryk, David M. Chan, Anish Kachinthaya, Haodi Zou, John Canny, Joseph E. Gonzalez, Trevor Darrell, (参考訳) 視覚的記述のためのマルチモーダル事前訓練の最近の進歩にもかかわらず、最先端のモデルは、シーンに存在しない幻覚のようなエラーを含むキャプションを生成する。 既存の顕著な幻覚の指標であるCHAIRは、MS COCOオブジェクトと同義語の固定セットに限られている。 そこで本研究では,大規模言語モデル(LLM)を利用して物体の幻覚を計測するオープン語彙計量ALOHaを提案する。 具体的には、LLMを用いて、候補キャプションから接地可能なオブジェクトを抽出し、キャプションやオブジェクト検出から参照オブジェクトとそれらの意味的類似性を計測し、ハンガリーマッチングを用いて最終幻覚スコアを生成する。 ALOHaは、HAT上のCHAIRよりも13.6%多くの幻覚オブジェクトを正しく識別し、MS COCOキャプションの金標準サブセットとして、ノーキャップ上で30.8%のオブジェクトがMS COCOカテゴリを超えて拡張されていることを示す。 私たちのコードはhttps://davidmchan.github.io/aloha/で公開されています。

Despite recent advances in multimodal pre-training for visual description, state-of-the-art models still produce captions containing errors, such as hallucinating objects not present in a scene. The existing prominent metric for object hallucination, CHAIR, is limited to a fixed set of MS COCO objects and synonyms. In this work, we propose a modernized open-vocabulary metric, ALOHa, which leverages large language models (LLMs) to measure object hallucinations. Specifically, we use an LLM to extract groundable objects from a candidate caption, measure their semantic similarity to reference objects from captions and object detections, and use Hungarian matching to produce a final hallucination score. We show that ALOHa correctly identifies 13.6% more hallucinated objects than CHAIR on HAT, a new gold-standard subset of MS COCO Captions annotated for hallucinations, and 30.8% more on nocaps, where objects extend beyond MS COCO categories. Our code is available at https://davidmchan.github.io/aloha/.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# Visual Autoregressive Modeling: 次世代予測によるスケーラブルな画像生成

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction ( http://arxiv.org/abs/2404.02905v1 )

ライセンス: Link先を確認
Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang, (参考訳) 我々は,画像上の自己回帰学習を粗大な"next-scale prediction"や"next- resolution prediction"として再定義する,新しい世代パラダイムであるVisual AutoRegressive Modeling (VAR)を提案する。 このシンプルで直感的な手法により、自動回帰変換器(AR)は視覚分布を高速に学習し、うまく一般化することができる。 ImageNet 256x256ベンチマークでは、VARはFrechet開始距離(FID)を18.65から1.80に改善し、インセプションスコア(IS)を80.4から356.4に改善し、推論速度を約20倍改善した。 また、VARは画像品質、推論速度、データ効率、スケーラビリティなど、複数の次元において拡散変換器(DiT)より優れていることを実証的に検証した。 VARモデルのスケールアップは、LLMで見られるのと同様の明確なパワー則のスケーリング法則を示し、-0.998付近の線形相関係数を確かな証拠として示している。 VARはさらに、画像のインペインティング、アウトペインティング、編集など、下流タスクでゼロショットの一般化機能を示す。 これらの結果は、当初VARがLLMの2つの重要な特性であるスケーリング法則とゼロショットタスク一般化をエミュレートしたことを示唆している。 我々は、視覚生成と統合学習のためのAR/VARモデルの探索を促進するために、すべてのモデルとコードをリリースした。

We present Visual AutoRegressive modeling (VAR), a new generation paradigm that redefines the autoregressive learning on images as coarse-to-fine "next-scale prediction" or "next-resolution prediction", diverging from the standard raster-scan "next-token prediction". This simple, intuitive methodology allows autoregressive (AR) transformers to learn visual distributions fast and generalize well: VAR, for the first time, makes AR models surpass diffusion transformers in image generation. On ImageNet 256x256 benchmark, VAR significantly improve AR baseline by improving Frechet inception distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4, with around 20x faster inference speed. It is also empirically verified that VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions including image quality, inference speed, data efficiency, and scalability. Scaling up VAR models exhibits clear power-law scaling laws similar to those observed in LLMs, with linear correlation coefficients near -0.998 as solid evidence. VAR further showcases zero-shot generalization ability in downstream tasks including image in-painting, out-painting, and editing. These results suggest VAR has initially emulated the two important properties of LLMs: Scaling Laws and zero-shot task generalization. We have released all models and codes to promote the exploration of AR/VAR models for visual generation and unified learning.
翻訳日:2024-04-04 16:40:30 公開日:2024-04-03
# SCTc-TE: 時間イベント予測のための総合的な定式化とベンチマーク

SCTc-TE: A Comprehensive Formulation and Benchmark for Temporal Event Forecasting ( http://arxiv.org/abs/2312.01052v2 )

ライセンス: Link先を確認
Yunshan Ma, Chenchen Ye, Zijian Wu, Xiang Wang, Yixin Cao, Liang Pang, Tat-Seng Chua, (参考訳) 時間的複合イベント予測は、観測された事象を歴史から予測することを目的としている。 時間的複合事象のほとんどの定式化は、構造化されていないか、あるいは広範な時間的情報がないため、劣った表現と限られた予測能力をもたらす。 これらのギャップを埋めるために、構造化、複雑化、時間完全時間イベント(SCTc-TE)の定式化を革新的に導入する。 この包括的定式化に続いて、我々は完全に自動化されたパイプラインを開発し、約0.6百万のニュース記事からMidEast-TEという大規模なデータセットを構築した。 このデータセットは、2015年から2022年まで、主に中東地域での協力と紛争イベントに焦点を当てている。 データセットの構築に限らず、我々は様々な文脈情報、すなわち地域的・グローバルな文脈における重要な役割を識別することで予測手法を推進している。 そこで我々は,SCTc-TE予測における局所的・グローバル的コンテキストの両面での活用が可能なLoGoを提案する。 提案手法は,提案したMidEast-TEデータセットとGDELT-TEデータセットの両方に対して評価する。 実験の結果,予測モデルであるLoGoの有効性が示された。 コードとデータセットはhttps://github.com/yecchen/GDELT-ComplexEvent.orgから公開される。

Temporal complex event forecasting aims to predict the future events given the observed events from history. Most formulations of temporal complex event are unstructured or without extensive temporal information, resulting in inferior representations and limited forecasting capabilities. To bridge these gaps, we innovatively introduce the formulation of Structured, Complex, and Time-complete temporal event (SCTc-TE). Following this comprehensive formulation, we develop a fully automated pipeline and construct a large-scale dataset named MidEast-TE from about 0.6 million news articles. This dataset focuses on the cooperation and conflict events among countries mainly in the MidEast region from 2015 to 2022. Not limited to the dataset construction, more importantly, we advance the forecasting methods by discriminating the crucial roles of various contextual information, i.e., local and global contexts. Thereby, we propose a novel method LoGo that is able to take advantage of both Local and Global contexts for SCTc-TE forecasting. We evaluate our proposed approach on both our proposed MidEast-TE dataset and the original GDELT-TE dataset. Experimental results demonstrate the effectiveness of our forecasting model LoGo. The code and datasets are released via https://github.com/yecchen/GDELT-ComplexEvent.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# LYT-Net:低光画像強調のための軽量YUVトランスを用いたネットワーク

LYT-Net: Lightweight YUV Transformer-based Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2401.15204v4 )

ライセンス: Link先を確認
A. Brateanu, R. Balmez, A. Avram, C. Orhei, (参考訳) 近年、深層学習に基づくソリューションは、画像強調の領域で成功している。 本稿では,低照度画像強調のための新しいアプローチとして,LYT-Net(Lightweight YUV Transformer-based Network)を提案する。 提案したアーキテクチャは、従来のRetinexベースのモデルとは異なるもので、YUV色空間の輝度(Y)と色(U, V)の自然な分離を利用して、画像中の光と色情報を分離する複雑なタスクを単純化する。 長距離依存関係をキャプチャする能力で知られるトランスフォーマーの強みを活用することで、LYT-Netは、モデル複雑性の低減を維持しながら、画像の包括的なコンテキスト理解を保証する。 提案手法は,新しいハイブリッド損失関数を用いることで,低照度画像強調データセットの最先端結果を実現する。 ソースコードと事前訓練されたモデルはhttps://github.com/albrateanu/LYT-Netで入手できる。

In recent years, deep learning-based solutions have proven successful in the domains of image enhancement. This paper introduces LYT-Net, or Lightweight YUV Transformer-based Network, as a novel approach for low-light image enhancement. The proposed architecture, distinct from conventional Retinex-based models, leverages the YUV color space's natural separation of luminance (Y) and chrominance (U and V) to simplify the intricate task of disentangling light and color information in images. By utilizing the strengths of transformers, known for their capability to capture long-range dependencies, LYT-Net ensures a comprehensive contextual understanding of the image while maintaining reduced model complexity. By employing a novel hybrid loss function, our proposed method achieves state-of-the-art results on low-light image enhancement datasets, all while being considerably more compact than its counterparts. The source code and pre-trained models are available at https://github.com/albrateanu/LYT-Net
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# You tell me:A dataset of GPT-4-based Behaviour Change Support Conversations

"You tell me": A Dataset of GPT-4-Based Behaviour Change Support Conversations ( http://arxiv.org/abs/2401.16167v2 )

ライセンス: Link先を確認
Selina Meyer, David Elsweiler, (参考訳) 会話エージェントは、情報ニーズに対する感情的なニーズに対処するために、ますます使われています。 関心が高まるユースケースの1つは、カウンセリングスタイルのメンタルヘルスと行動変化の介入であり、大きな言語モデル(LLM)ベースのアプローチがより一般的になる。 この文脈でのこれまでの研究は、主にシステムに焦点を当てており、ユーザー行動の側面とそれがLLM生成テキストに与える影響を予見している。 この問題に対処するため,GPT-4に基づく2つの対話エージェントを用いて,行動変化に関連するテキストベースのユーザインタラクションを含むデータセットを事前登録したユーザスタディで収集した。 このデータセットには、会話データ、ユーザ言語分析、知覚測定、LLM生成のターンに対するユーザフィードバックが含まれており、実際のインタラクションに基づいてそのようなシステムの設計を知らせるための貴重な洞察を提供することができる。

Conversational agents are increasingly used to address emotional needs on top of information needs. One use case of increasing interest are counselling-style mental health and behaviour change interventions, with large language model (LLM)-based approaches becoming more popular. Research in this context so far has been largely system-focused, foregoing the aspect of user behaviour and the impact this can have on LLM-generated texts. To address this issue, we share a dataset containing text-based user interactions related to behaviour change with two GPT-4-based conversational agents collected in a preregistered user study. This dataset includes conversation data, user language analysis, perception measures, and user feedback for LLM-generated turns, and can offer valuable insights to inform the design of such systems based on real interactions.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# RRWNet: 効率的な網膜動脈/静脈の分別と分類のための再帰的リファインメントネットワーク

RRWNet: Recursive Refinement Network for Effective Retinal Artery/Vein Segmentation and Classification ( http://arxiv.org/abs/2402.03166v3 )

ライセンス: Link先を確認
José Morano, Guilherme Aresta, Hrvoje Bogunović, (参考訳) 網膜血管の校正と構成は、様々な疾患や医学的状態において重要なバイオマーカーとなる。 網膜血管の徹底的な解析では、血管の分画と血管と静脈に分類する必要がある。 しかしながら、これらのタスクを手動で実行することは労働集約的であり、ヒューマンエラーを起こしやすい。 この課題に対処するためにいくつかの自動化手法が提案されているが、現在の技術状況は、セグメンテーションマップのトポロジ的一貫性に影響を及ぼす分類誤差の顕在化による課題に直面している。 本稿では,この制限に対処する新しいエンドツーエンドディープラーニングフレームワークであるRRWNetを紹介する。 このフレームワークは、セマンティックセグメンテーションマップを再帰的に洗練し、明確な分類エラーを修正し、トポロジ的一貫性を向上させる完全な畳み込みニューラルネットワークで構成されている。 特にRRWNetは、入力画像からベースセグメンテーションマップを生成するBaseサブネットワークと、これらのマップを反復的に再帰的に改善するRecursive Refinementサブネットワークの2つの特別なサブネットワークで構成されている。 3つの異なる公開データセットの評価は,提案手法の最先端性能を実証し,既存の手法よりも顕著な分類誤差が少なく,より位相的に一貫したセグメンテーションマップが得られることを示した。 さらに、RRWNet内のRecursive Refinementモジュールは、他のメソッドからのセグメンテーションマップの処理後処理に有効であることを証明し、その可能性を示す。 モデルコード、重み、予測はhttps://github.com/j-morano/rrwnet.comで公開される。

The caliber and configuration of retinal blood vessels serve as important biomarkers for various diseases and medical conditions. A thorough analysis of the retinal vasculature requires the segmentation of the blood vessels and their classification into arteries and veins, typically performed on color fundus images obtained by retinography. However, manually performing these tasks is labor-intensive and prone to human error. While several automated methods have been proposed to address this task, the current state of art faces challenges due to manifest classification errors affecting the topological consistency of segmentation maps. In this work, we introduce RRWNet, a novel end-to-end deep learning framework that addresses this limitation. The framework consists of a fully convolutional neural network that recursively refines semantic segmentation maps, correcting manifest classification errors and thus improving topological consistency. In particular, RRWNet is composed of two specialized subnetworks: a Base subnetwork that generates base segmentation maps from the input images, and a Recursive Refinement subnetwork that iteratively and recursively improves these maps. Evaluation on three different public datasets demonstrates the state-of-the-art performance of the proposed method, yielding more topologically consistent segmentation maps with fewer manifest classification errors than existing approaches. In addition, the Recursive Refinement module within RRWNet proves effective in post-processing segmentation maps from other methods, further demonstrating its potential. The model code, weights, and predictions will be publicly available at https://github.com/j-morano/rrwnet.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# リアルタイムリカレント学習と最大コレントロピー基準を用いた4次リカレントニューラルネットワーク

Quaternion recurrent neural network with real-time recurrent learning and maximum correntropy criterion ( http://arxiv.org/abs/2402.14227v2 )

ライセンス: Link先を確認
Pauline Bourigault, Dongpo Xu, Danilo P. Mandic, (参考訳) 我々は,3次元データと4次元データのリアルタイム処理のための,頑健な四元系リカレントニューラルネットワーク(QRNN)を開発した。 これは、リアルタイム反復学習(RTRL)アルゴリズムと最大コレントロピー基準(MCC)を損失関数として組み合わせることで実現される。 平均二乗誤差と最大コレントロピー基準の両方が有効コスト関数であるが、非二乗最大コレントロピー損失関数はオフレーヤに対する感度が低く、多次元ノイズや不確かさのある応用に適していることが示されている。 両アルゴリズムは、四元数変数の実関数の微分を可能にし、積と連鎖の規則を提供する新しい一般化されたHR(GHR)計算に基づいて導出され、エレガントでコンパクトな導出を可能にする。 肺がん放射線治療における胸部内マーカーの運動予測は, 正常および不規則な呼吸配列を含む。

We develop a robust quaternion recurrent neural network (QRNN) for real-time processing of 3D and 4D data with outliers. This is achieved by combining the real-time recurrent learning (RTRL) algorithm and the maximum correntropy criterion (MCC) as a loss function. While both the mean square error and maximum correntropy criterion are viable cost functions, it is shown that the non-quadratic maximum correntropy loss function is less sensitive to outliers, making it suitable for applications with multidimensional noisy or uncertain data. Both algorithms are derived based on the novel generalised HR (GHR) calculus, which allows for the differentiation of real functions of quaternion variables and offers the product and chain rules, thus enabling elegant and compact derivations. Simulation results in the context of motion prediction of chest internal markers for lung cancer radiotherapy, which includes regular and irregular breathing sequences, support the analysis.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# G3DR: ImageNetで生成した3D再構成

G3DR: Generative 3D Reconstruction in ImageNet ( http://arxiv.org/abs/2403.00939v3 )

ライセンス: Link先を確認
Pradyumna Reddy, Ismail Elezi, Jiankang Deng, (参考訳) 本稿では,画像から多種多様な高品質な3Dオブジェクトを生成できる新しい3D生成手法であるG3DRを紹介し,既存の手法の限界に対処する。 我々の枠組みの核心は、高幾何学的忠実度でシーンを生成できる新しい奥行き正規化技術である。 G3DRはまた、CLIPのような事前訓練された言語ビジョンモデルを活用して、新しいビューの再構築を可能にし、世代ごとの視覚的リアリズムを改善する。 さらに、G3DRは、世代の品質をさらに向上させるために、単純だが効果的なサンプリング手順を設計する。 G3DRは、クラスやテキストコンディショニングに基づいた多種多様な効率的な3Dアセット生成を提供する。 その単純さにもかかわらず、G3DRは最先端の手法に勝ることができ、知覚的メトリクスで最大22%、幾何学的スコアで最大90%向上し、トレーニング時間の半分しか必要としない。 コードはhttps://github.com/preddy5/G3DRで入手できる。

We introduce a novel 3D generative method, Generative 3D Reconstruction (G3DR) in ImageNet, capable of generating diverse and high-quality 3D objects from single images, addressing the limitations of existing methods. At the heart of our framework is a novel depth regularization technique that enables the generation of scenes with high-geometric fidelity. G3DR also leverages a pretrained language-vision model, such as CLIP, to enable reconstruction in novel views and improve the visual realism of generations. Additionally, G3DR designs a simple but effective sampling procedure to further improve the quality of generations. G3DR offers diverse and efficient 3D asset generation based on class or text conditioning. Despite its simplicity, G3DR is able to beat state-of-theart methods, improving over them by up to 22% in perceptual metrics and 90% in geometry scores, while needing only half of the training time. Code is available at https://github.com/preddy5/G3DR
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# tsGT: Transformerによる確率的時系列モデリング

tsGT: Stochastic Time Series Modeling With Transformer ( http://arxiv.org/abs/2403.05713v3 )

ライセンス: Link先を確認
Łukasz Kuciński, Witold Drzewakowski, Mateusz Olko, Piotr Kozakowski, Łukasz Maziarka, Marta Emilia Nowakowska, Łukasz Kaiser, Piotr Miłoś, (参考訳) 時系列法は、時間的に構造化されたデータを扱う科学のあらゆる分野において、基本的な重要性である。 近年、時系列固有のアーキテクチャバイアスを持つ決定論的トランスフォーマーモデルが急増している。 本稿では,汎用トランスアーキテクチャ上に構築された確率的時系列モデルであるtsGTを導入することで,異なる方向に進む。 我々は、よく知られた理論上正当化されたロールウィンドウバックテストと評価プロトコルの使用に焦点をあてる。 tsGT は MAD と RMSE の最先端モデルより優れており,QL と CRPS の確率的ピアよりも 4 つの一般的なデータセットで優れていることを示す。 これらの結果は、データ分布をモデル化し、限界量子値を予測するtsGTの能力を詳細に分析することで補完する。

Time series methods are of fundamental importance in virtually any field of science that deals with temporally structured data. Recently, there has been a surge of deterministic transformer models with time series-specific architectural biases. In this paper, we go in a different direction by introducing tsGT, a stochastic time series model built on a general-purpose transformer architecture. We focus on using a well-known and theoretically justified rolling window backtesting and evaluation protocol. We show that tsGT outperforms the state-of-the-art models on MAD and RMSE, and surpasses its stochastic peers on QL and CRPS, on four commonly used datasets. We complement these results with a detailed analysis of tsGT's ability to model the data distribution and predict marginal quantile values.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# 音声言語の自己教師型モデルにおける語彙音の符号化

Encoding of lexical tone in self-supervised models of spoken language ( http://arxiv.org/abs/2403.16865v2 )

ライセンス: Link先を確認
Gaofei Shen, Michaela Watkins, Afra Alishahi, Arianna Bisazza, Grzegorz Chrupała, (参考訳) 自己教師型音声言語モデル(SLM)は、音響、音韻、音韻、構文、意味的レベルから話者特性に至るまで、人間の音声の様々な特徴をコードしている。 音韻の表現に関する先行研究の多くは、音素のような部分的特徴に焦点を当てており、SLMにおける超音韻(トーンやストレスパターンなど)の符号化は、まだ十分に理解されていない。 トーン(Tone)は、世界の言語の半分以上に存在する、上品な特徴である。 本稿では,マンダリンとベトナム語をケーススタディとして,SLMのトーン符号化能力を解析することを目的とする。 SLMは、非音節言語からのデータに基づいて訓練された場合でも、語彙のトーンをかなりの程度にエンコードすることを示す。 さらに、SLMは音色や子音知覚研究において、母国人や非母国人と同様に振る舞うが、同じ発達軌跡をたどることはない。

Interpretability research has shown that self-supervised Spoken Language Models (SLMs) encode a wide variety of features in human speech from the acoustic, phonetic, phonological, syntactic and semantic levels, to speaker characteristics. The bulk of prior research on representations of phonology has focused on segmental features such as phonemes; the encoding of suprasegmental phonology (such as tone and stress patterns) in SLMs is not yet well understood. Tone is a suprasegmental feature that is present in more than half of the world's languages. This paper aims to analyze the tone encoding capabilities of SLMs, using Mandarin and Vietnamese as case studies. We show that SLMs encode lexical tone to a significant degree even when they are trained on data from non-tonal languages. We further find that SLMs behave similarly to native and non-native human participants in tone and consonant perception studies, but they do not follow the same developmental trajectory.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# アイテム特徴を有するNFT集合体のためのレコメンダシステム

A Recommender System for NFT Collectibles with Item Feature ( http://arxiv.org/abs/2403.18305v2 )

ライセンス: Link先を確認
Minjoo Choi, Seonmi Kim, Yejin Kim, Youngbin Lee, Joohwan Hong, Yongjae Lee, (参考訳) 情報過負荷に対処するため,様々な領域でレコメンダシステムの研究や適用が活発に行われている。 映画、音楽、電子商取引のレコメンダシステムに関する研究は多いが、NFT市場の継続的な成長にもかかわらず、NFTのレコメンダシステムには比較的注意が払われていない。 本稿では,NFT取引記録から外部項目特徴に至るまで,さまざまなデータソースを利用するNFTを対象としたレコメンデーションシステムを提案し,個別の嗜好に適合する正確なレコメンデーションを生成する。 我々は,各項目とユーザ間の複雑な関係を効率的に把握し,ノードの特徴情報とグラフ構造の両方を組み込んだノード(item)埋め込みを生成する,データ効率のよいグラフベースレコメンデータシステムを開発した。 さらに,画像機能やテキスト機能,価格機能など,ユーザとイテムのインタラクション以外のインプットも活用する。 数値実験により,全ての項目の特徴を副次情報として利用した上で,グラフベースレコメンデータシステムの性能が著しく向上することを確認した。

Recommender systems have been actively studied and applied in various domains to deal with information overload. Although there are numerous studies on recommender systems for movies, music, and e-commerce, comparatively less attention has been paid to the recommender system for NFTs despite the continuous growth of the NFT market. This paper presents a recommender system for NFTs that utilizes a variety of data sources, from NFT transaction records to external item features, to generate precise recommendations that cater to individual preferences. We develop a data-efficient graph-based recommender system to efficiently capture the complex relationship between each item and users and generate node(item) embeddings which incorporate both node feature information and graph structure. Furthermore, we exploit inputs beyond user-item interactions, such as image feature, text feature, and price feature. Numerical experiments verify the performance of the graph-based recommender system improves significantly after utilizing all types of item features as side information, thereby outperforming all other baselines.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# マルチビュークラスタリングのための一貫性と特異性を考慮したテンソル型グラフ学習

Tensor-based Graph Learning with Consistency and Specificity for Multi-view Clustering ( http://arxiv.org/abs/2403.18393v2 )

ライセンス: Link先を確認
Long Shi, Lei Cao, Yunshan Ye, Yu Zhao, Badong Chen, (参考訳) 多視点クラスタリングの文脈では、グラフ学習は決定的な手法として認識され、一般に確率的隣人に基づいて適応的な隣人グラフを構築し、クラスタリングのためのコンセンサスグラフを学習する。 しかし、それらは2つの制限に直面している。 第一に、それらはしばしばユークリッド距離に頼り、適応的な隣り合うグラフを構成する際に類似度を測定する。 第二に、これらの手法のほとんどはコンセンサスグラフにのみ焦点を合わせ、各ビューからのユニークな情報を無視している。 グラフに基づくいくつかの研究では、特定の情報の使用も検討されているが、モデリングアプローチでは、特定のコンポーネントからのノイズの影響を除外していない。 そこで本研究では,ノイズの影響を効果的に排除しつつ,一貫性と特異性を同時に考慮したテンソルベース多視点グラフ学習フレームワークを提案する。 具体的には、Stiefel多様体上の類似性距離を計算し、データの本質的性質を保存する。 各ビューの学習した隣接グラフは、一貫した部分、特定部分、ノイズ部分からなると仮定することにより、ノイズフリーグラフ融合のための新しいテンソルベースのターゲットグラフ学習パラダイムを定式化する。 高次相関を明らかにする際のテンソル特異値分解(t-SVD)の利点により、このモデルは対象グラフの完全な理解を達成することができる。 さらに,最適化問題に対処するアルゴリズムを導出する。 6つのデータセットの実験により,本手法の優位性を実証した。 ソースコードはhttps://github.com/lshi91/CSTGL-Code.comで公開しています。

In the context of multi-view clustering, graph learning is recognized as a crucial technique, which generally involves constructing an adaptive neighbor graph based on probabilistic neighbors, and then learning a consensus graph to for clustering. However, they are confronted with two limitations. Firstly, they often rely on Euclidean distance to measure similarity when constructing the adaptive neighbor graph, which proves inadequate in capturing the intrinsic structure among data points in practice. Secondly, most of these methods focus solely on consensus graph, ignoring unique information from each view. Although a few graph-based studies have considered using specific information as well, the modelling approach employed does not exclude the noise impact from the specific component. To this end, we propose a novel tensor-based multi-view graph learning framework that simultaneously considers consistency and specificity, while effectively eliminating the influence of noise. Specifically, we calculate similarity distance on the Stiefel manifold to preserve the intrinsic properties of data. By making an assumption that the learned neighbor graph of each view comprises a consistent part, a specific part, and a noise part, we formulate a new tensor-based target graph learning paradigm for noise-free graph fusion. Owing to the benefits of tensor singular value decomposition (t-SVD) in uncovering high-order correlations, this model is capable of achieving a complete understanding of the target graph. Furthermore, we derive an algorithm to address the optimization problem. Experiments on six datasets have demonstrated the superiority of our method. We have released the source code on https://github.com/lshi91/CSTGL-Code.
翻訳日:2024-04-04 16:30:45 公開日:2024-04-03
# オークション場におけるLLMエージェントの戦略計画と実行の評価

Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena ( http://arxiv.org/abs/2310.05746v2 )

ライセンス: Link先を確認
Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson, (参考訳) 近年のLarge Language Models (LLM) の進歩は高度な推論を示すが、NLP評価は静的なベンチマークに依存することが多い。 これを評価することは、長期計画を必要とする動的で競争的なシナリオで戦略的推論をテストする必要のある環境を評価する。 AucArenaは、オークションをシミュレートする新しい評価スイートであり、非常に予測不可能で、リソースやリスク管理に関連するスキルが数多く含まれており、評価も容易である。 我々は、最先端のLLMを用いて制御実験を行い、入札エージェントに計画と実行のスキルをベンチマークさせる。 本研究は,GPT-4 などの LLM が,予算管理や目標順守といった,適応戦略によって改善されるオークション参加の鍵となるスキルを持っていることを実証する。 このことは、LLMが競合する状況下で複雑な社会的相互作用をモデル化する可能性を強調している。 しかし, 簡易な手法によるLLM性能と時折性能の変動は, LLM設計のさらなる進歩と, 継続する試験および改良のためのシミュレーション環境の価値を示す。

Recent advancements in Large Language Models (LLMs) showcase advanced reasoning, yet NLP evaluations often depend on static benchmarks. Evaluating this necessitates environments that test strategic reasoning in dynamic, competitive scenarios requiring long-term planning. We introduce AucArena, a novel evaluation suite that simulates auctions, a setting chosen for being highly unpredictable and involving many skills related to resource and risk management, while also being easy to evaluate. We conduct controlled experiments using state-of-the-art LLMs to power bidding agents to benchmark their planning and execution skills. Our research demonstrates that LLMs, such as GPT-4, possess key skills for auction participation, such as budget management and goal adherence, which improve with adaptive strategies. This highlights LLMs' potential in modeling complex social interactions in competitive contexts. However, variability in LLM performance and occasional outperformance by simpler methods indicate opportunities for further advancements in LLM design and the value of our simulation environment for ongoing testing and refinement.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-03
# オークション場におけるLLMエージェントの戦略計画と実行の評価

Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena ( http://arxiv.org/abs/2310.05746v3 )

ライセンス: Link先を確認
Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson, (参考訳) 近年のLarge Language Models (LLM) の進歩は高度な推論を示すが、NLP評価は静的なベンチマークに依存することが多い。 これを評価することは、長期計画を必要とする動的で競争的なシナリオで戦略的推論をテストする必要のある環境を評価する。 AucArenaは、オークションをシミュレートする新しい評価スイートであり、非常に予測不可能で、リソースやリスク管理に関連するスキルが数多く含まれており、評価も容易である。 我々は、最先端のLLMを用いて制御実験を行い、入札エージェントに計画と実行のスキルをベンチマークさせる。 本研究は,GPT-4 などの LLM が,予算管理や目標順守といった,適応戦略によって改善されるオークション参加の鍵となるスキルを持っていることを実証する。 このことは、LLMが競合する状況下で複雑な社会的相互作用をモデル化する可能性を強調している。 しかし, 簡易な手法によるLLM性能と時折性能の変動は, LLM設計のさらなる進歩と, 継続する試験および改良のためのシミュレーション環境の価値を示す。

Recent advancements in Large Language Models (LLMs) showcase advanced reasoning, yet NLP evaluations often depend on static benchmarks. Evaluating this necessitates environments that test strategic reasoning in dynamic, competitive scenarios requiring long-term planning. We introduce AucArena, a novel evaluation suite that simulates auctions, a setting chosen for being highly unpredictable and involving many skills related to resource and risk management, while also being easy to evaluate. We conduct controlled experiments using state-of-the-art LLMs to power bidding agents to benchmark their planning and execution skills. Our research demonstrates that LLMs, such as GPT-4, possess key skills for auction participation, such as budget management and goal adherence, which improve with adaptive strategies. This highlights LLMs' potential in modeling complex social interactions in competitive contexts. However, variability in LLM performance and occasional outperformance by simpler methods indicate opportunities for further advancements in LLM design and the value of our simulation environment for ongoing testing and refinement.
翻訳日:2024-04-04 12:52:33 公開日:2024-04-03
# 2D-3Dビジョンランゲージ蒸留を用いた3次元オープンボキャブラリパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパ

3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation ( http://arxiv.org/abs/2401.02402v3 )

ライセンス: Link先を確認
Zihao Xiao, Longlong Jing, Shangxuan Wu, Alex Zihao Zhu, Jingwei Ji, Chiyu Max Jiang, Wei-Chih Hung, Thomas Funkhouser, Weicheng Kuo, Anelia Angelova, Yin Zhou, Shiwei Sheng, (参考訳) 3Dパノプティクスのセグメンテーションは、特に自動運転において、困難な認識課題である。 シーン内の3Dポイントに対するセマンティックアノテーションとインスタンスアノテーションの両方を予測することを目的としている。 従来の3Dパノプティクスのセグメンテーションアプローチはクローズドセットのベンチマークでは優れたパフォーマンスを達成しているが、これらのアプローチを目に見えないものや見えないものへの一般化は未解決の問題である。 未確認のオブジェクトカテゴリでは、2Dオープンボキャブラリセグメンテーションは、凍結したCLIPバックボーンにのみ依存し、複数の分類アウトプットをアンサンブルする、有望な結果を達成した。 しかし、これらの2Dモデルを3Dに単純に拡張しても、特に新しいカテゴリーにおいて、マスクごとの分類品質が低いため、良好な性能が保証されないことが判明した。 本稿では,3次元オープンボキャブラリパノプタセグメンテーションのための最初の手法を提案する。 本モデルは,学習可能なLiDAR特徴と高密度凍結視覚CLIP特徴との融合を利用して,ベースクラスと新規クラスの両方の予測を行う。 新たなクラスにおける分類性能をさらに向上させ,CLIPモデルを活用するために,オブジェクトレベルの蒸留損失とボクセルレベルの蒸留損失の2つの新しい損失関数を提案する。 nuScenes と SemanticKITTI のデータセットを用いた実験により,本手法は強いベースラインを大きなマージンで上回ることを示した。

3D panoptic segmentation is a challenging perception task, especially in autonomous driving. It aims to predict both semantic and instance annotations for 3D points in a scene. Although prior 3D panoptic segmentation approaches have achieved great performance on closed-set benchmarks, generalizing these approaches to unseen things and unseen stuff categories remains an open problem. For unseen object categories, 2D open-vocabulary segmentation has achieved promising results that solely rely on frozen CLIP backbones and ensembling multiple classification outputs. However, we find that simply extending these 2D models to 3D does not guarantee good performance due to poor per-mask classification quality, especially for novel stuff categories. In this paper, we propose the first method to tackle 3D open-vocabulary panoptic segmentation. Our model takes advantage of the fusion between learnable LiDAR features and dense frozen vision CLIP features, using a single classification head to make predictions for both base and novel classes. To further improve the classification performance on novel classes and leverage the CLIP model, we propose two novel loss functions: object-level distillation loss and voxel-level distillation loss. Our experiments on the nuScenes and SemanticKITTI datasets show that our method outperforms the strong baseline by a large margin.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# 虚血性脳卒中病変分離のためのロバストアンサンブルアルゴリズム : ISLESチャレンジを超えての一般化と臨床的有用性

A Robust Ensemble Algorithm for Ischemic Stroke Lesion Segmentation: Generalizability and Clinical Utility Beyond the ISLES Challenge ( http://arxiv.org/abs/2403.19425v2 )

ライセンス: Link先を確認
Ezequiel de la Rosa, Mauricio Reyes, Sook-Lei Liew, Alexandre Hutton, Roland Wiest, Johannes Kaesmacher, Uta Hanning, Arsany Hakim, Richard Zubal, Waldo Valenzuela, David Robben, Diana M. Sima, Vincenzo Anania, Arne Brys, James A. Meakin, Anne Mickan, Gabriel Broocks, Christian Heitkamp, Shengbo Gao, Kongming Liang, Ziji Zhang, Md Mahfuzur Rahman Siddiquee, Andriy Myronenko, Pooya Ashtari, Sabine Van Huffel, Hyun-su Jeong, Chi-ho Yoon, Chulhong Kim, Jiayu Huo, Sebastien Ourselin, Rachel Sparks, Albert Clèrigues, Arnau Oliver, Xavier Lladó, Liam Chalcroft, Ioannis Pappas, Jeroen Bertels, Ewout Heylen, Juliette Moreau, Nima Hatami, Carole Frindel, Abdul Qayyum, Moona Mazher, Domenec Puig, Shao-Chieh Lin, Chun-Jung Juan, Tianxi Hu, Lyndon Boone, Maged Goubran, Yi-Jui Liu, Susanne Wegener, Florian Kofler, Ivan Ezhov, Suprosanna Shit, Moritz R. Hernandez Petzsche, Bjoern Menze, Jan S. Kirschke, Benedikt Wiestler, (参考訳) 拡散強調MRI(DWI)は脳卒中診断,治療決定,予後に必須である。 しかし、画像と疾患の多様性は、臨床的価値を持つ一般化可能なAIアルゴリズムの開発を妨げる。 我々は,2022年のIschemic Stroke Lesion Segmentation(ISLES)チャレンジから得られた,新しいアンサンブルアルゴリズムを提案することで,このギャップに対処する。 ISLES'22は、様々な医療センターからの虚血性脳卒中を400件スキャンし、研究コミュニティによる幅広い最先端セグメンテーションアルゴリズムの開発を促進させた。 主要なチームとのコラボレーションを通じて、トップパフォーマンスのアルゴリズムを、個々のソリューションの限界を克服するアンサンブルモデルに組み合わせました。 我々のアンサンブルモデルは, 個々のアルゴリズムと比較して, 内部テストセットにおける虚血性病変の検出とセグメンテーションの精度に優れていた。 この精度は多様な画像と病気の変数にわたってよく一般化された。 さらに,臨床バイオマーカーの抽出に優れていた。 特にチューリングのようなテストでは、神経放射線学者は手作業よりもアルゴリズムのセグメンテーションを常に好み、包括性と精度の向上を強調した。 実世界の外部データセット(N=1686)を用いた検証により、モデルの一般化性が確認された。 このアルゴリズムの出力は、専門家による結果と同等以上の臨床スコア(NIHSSと90日間のmRS)と強い相関を示し、臨床関連性について概説した。 この研究は2つの重要な発見をもたらす。 まず、DWIの虚血性脳梗塞を専門家(神経)と同等に検出し、検出するアンサンブルアルゴリズム(https://github.com/Tabrisrei/ISLES22_Ensemble)を提案する。 第2に, バイオメディカル・チャレンジ・アウトプットが, 課題の当初の目的を超える可能性を示し, 実際の臨床応用性を示す。

Diffusion-weighted MRI (DWI) is essential for stroke diagnosis, treatment decisions, and prognosis. However, image and disease variability hinder the development of generalizable AI algorithms with clinical value. We address this gap by presenting a novel ensemble algorithm derived from the 2022 Ischemic Stroke Lesion Segmentation (ISLES) challenge. ISLES'22 provided 400 patient scans with ischemic stroke from various medical centers, facilitating the development of a wide range of cutting-edge segmentation algorithms by the research community. Through collaboration with leading teams, we combined top-performing algorithms into an ensemble model that overcomes the limitations of individual solutions. Our ensemble model achieved superior ischemic lesion detection and segmentation accuracy on our internal test set compared to individual algorithms. This accuracy generalized well across diverse image and disease variables. Furthermore, the model excelled in extracting clinical biomarkers. Notably, in a Turing-like test, neuroradiologists consistently preferred the algorithm's segmentations over manual expert efforts, highlighting increased comprehensiveness and precision. Validation using a real-world external dataset (N=1686) confirmed the model's generalizability. The algorithm's outputs also demonstrated strong correlations with clinical scores (admission NIHSS and 90-day mRS) on par with or exceeding expert-derived results, underlining its clinical relevance. This study offers two key findings. First, we present an ensemble algorithm (https://github.com/Tabrisrei/ISLES22_Ensemble) that detects and segments ischemic stroke lesions on DWI across diverse scenarios on par with expert (neuro)radiologists. Second, we show the potential for biomedical challenge outputs to extend beyond the challenge's initial objectives, demonstrating their real-world clinical applicability.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# 拡散モデルを用いたバースト超解法による知覚品質向上

Burst Super-Resolution with Diffusion Models for Improving Perceptual Quality ( http://arxiv.org/abs/2403.19428v2 )

ライセンス: Link先を確認
Kyotaro Tokoro, Kazutoshi Akita, Norimichi Ukita, (参考訳) バーストLR画像は単一のLR画像と比較してSR画質を向上させるのに有用であるが、バーストLR画像を受け入れる前のSRネットワークは決定論的に訓練され、ぼやけたSR画像を生成することが知られている。 さらに、バーストLR画像を完全に整列させることは困難であり、SR画像はよりぼやけたものになる。 このようなぼやけた画像は知覚的に劣化しているため、我々は鋭い高忠実度境界を再構築することを目指している。 このような高忠実度画像は拡散モデルによって再構成することができる。 しかし,拡散モデルを用いた先行SR法は,バーストSRタスクに対して適切に最適化されていない。 具体的には、ランダムサンプルから始まる逆過程は、バーストSRを含む画像の強調と復元に最適化されない。 一方,本提案手法では,拡散モデルの中間段階に供給される初期バーストSR画像の再構成にバーストLR特性を用いる。 中間段階からの逆過程 1)画像のグローバル構造を再構築するための拡散ステップをスキップし、 2) 細かなテクスチャを精錬するためのステップに焦点を当てる。 実験結果から,本手法は知覚品質指標のスコアを向上させることができることが示された。 コード:https://github.com/placerkyo/BSRD

While burst LR images are useful for improving the SR image quality compared with a single LR image, prior SR networks accepting the burst LR images are trained in a deterministic manner, which is known to produce a blurry SR image. In addition, it is difficult to perfectly align the burst LR images, making the SR image more blurry. Since such blurry images are perceptually degraded, we aim to reconstruct the sharp high-fidelity boundaries. Such high-fidelity images can be reconstructed by diffusion models. However, prior SR methods using the diffusion model are not properly optimized for the burst SR task. Specifically, the reverse process starting from a random sample is not optimized for image enhancement and restoration methods, including burst SR. In our proposed method, on the other hand, burst LR features are used to reconstruct the initial burst SR image that is fed into an intermediate step in the diffusion model. This reverse process from the intermediate step 1) skips diffusion steps for reconstructing the global structure of the image and 2) focuses on steps for refining detailed textures. Our experimental results demonstrate that our method can improve the scores of the perceptual quality metrics. Code: https://github.com/placerkyo/BSRD
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# 相互作用粒子ランゲヴィンアルゴリズムのモデリング -超線形の場合-

Taming the Interacting Particle Langevin Algorithm -- the superlinear case ( http://arxiv.org/abs/2403.19587v2 )

ライセンス: Link先を確認
Tim Johnston, Nikolaos Makras, Sotirios Sabanis, (参考訳) 確率最適化の最近の進歩は、相互作用粒子系(IPS)の概念を活用して、近似した後部密度から効率的にサンプリングする対話粒子ランゲヴィンアルゴリズム(IPLA)を生み出している。 これは予測最大化(EM)の枠組みにおいて特に重要となり、Eステップは計算的に困難か、あるいは難解である。 従来の研究では、ログ密度の勾配が最も直線的に増加する凸ケースを含むシナリオに焦点が当てられていたが、我々の研究は多項式成長を含むようにこの枠組みを拡張した。 テイミング技術は、非線型性の下で新しい種類の安定なアルゴリズムを生成できる明示的な離散化スキームを作成するために用いられ、これは「テーメド・インタラクティブ・パーティクル・ランゲヴィン・アルゴリズム (tIPLA)」と呼ばれる。 We obtain non-asymptotic convergence error estimates in Wasserstein-2 distance for the new class under an optimal rate。

Recent advances in stochastic optimization have yielded the interactive particle Langevin algorithm (IPLA), which leverages the notion of interacting particle systems (IPS) to efficiently sample from approximate posterior densities. This becomes particularly crucial within the framework of Expectation-Maximization (EM), where the E-step is computationally challenging or even intractable. Although prior research has focused on scenarios involving convex cases with gradients of log densities that grow at most linearly, our work extends this framework to include polynomial growth. Taming techniques are employed to produce an explicit discretization scheme that yields a new class of stable, under such non-linearities, algorithms which are called tamed interactive particle Langevin algorithms (tIPLA). We obtain non-asymptotic convergence error estimates in Wasserstein-2 distance for the new class under an optimal rate.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# MI-NeRF: 複数の物体から単一顔NeRFを学習する

MI-NeRF: Learning a Single Face NeRF from Multiple Identities ( http://arxiv.org/abs/2403.19920v2 )

ライセンス: Link先を確認
Aggelina Chatziagapi, Grigorios G. Chrysos, Dimitris Samaras, (参考訳) 本研究では,複数の人物の顔映像から単一動的神経放射場(NeRF)を学習する手法を提案する。 NeRFは、人間の顔の4Dダイナミックスと外観をモデル化する際、顕著な結果を示した。 しかし、それらは同一性ごとの最適化を必要とする。 近年、トレーニングやレンダリングの時間を短縮する手法が提案されているが、アイデンティティの数を増やすにはコストがかかる。 MI-NeRF(multi-identity NeRF)は、任意の長さのモノクロビデオのみを用いて、複雑な非剛体顔の動きをモデル化する単一統一ネットワークである。 本手法の中核となる前提は、乗法モジュールを用いてアイデンティティと非アイデンティティ固有情報の間の非線形相互作用を学習することである。 複数の動画を同時にトレーニングすることで、MI-NeRFは通常のシングルアイデンティティのNeRFと比較してトレーニング時間を短縮するだけでなく、任意の入力IDに対して新規表現を合成する際の堅牢性も示している。 本稿では,表情伝達と音声合成の両面での結果について述べる。 本手法は,短いビデオのみを対象とする個人識別のためにさらにパーソナライズすることができる。

In this work, we introduce a method that learns a single dynamic neural radiance field (NeRF) from monocular talking face videos of multiple identities. NeRFs have shown remarkable results in modeling the 4D dynamics and appearance of human faces. However, they require per-identity optimization. Although recent approaches have proposed techniques to reduce the training and rendering time, increasing the number of identities can be expensive. We introduce MI-NeRF (multi-identity NeRF), a single unified network that models complex non-rigid facial motion for multiple identities, using only monocular videos of arbitrary length. The core premise in our method is to learn the non-linear interactions between identity and non-identity specific information with a multiplicative module. By training on multiple videos simultaneously, MI-NeRF not only reduces the total training time compared to standard single-identity NeRFs, but also demonstrates robustness in synthesizing novel expressions for any input identity. We present results for both facial expression transfer and talking face video synthesis. Our method can be further personalized for a target identity given only a short video.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# データサイエンスにおける予測的語彙課題に対する大規模言語モデルの可能性

Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science ( http://arxiv.org/abs/2403.20208v2 )

ライセンス: Link先を確認
Yazheng Yang, Yuqi Wang, Sankalok Sen, Lei Li, Qi Liu, (参考訳) データサイエンスの分野において、欠落した値の分類、回帰、計算の予測タスクは、表型データに関連する問題によく遭遇する。 この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。 自然言語を解釈する能力にもかかわらず、LLMは構造化された表データを扱うには不十分である。 この制限は、基礎的なトレーニング中に表データの複雑さに欠けることに起因する。 本研究の目的は、この拡張データセット上で、注釈付きテーブルの包括的コーパスをコンパイルし、Llama-2の大規模トレーニングを実行することにより、このギャップを軽減することである。 さらに、訓練されたモデルをゼロショット予測、少数ショット予測、文脈内学習シナリオに適用する実践的応用について検討する。 大規模な実験を通じて、我々の方法論は既存のベンチマークよりも大幅に改善されている。 これらの進歩は、データサイエンスにおけるテーブル関連問題を解決するためのLLMトレーニングの調整の有効性を強調し、表知性を高めるためにLLMを利用するための新しいベンチマークを確立する。

In the domain of data science, the predictive tasks of classification, regression, and imputation of missing values are commonly encountered challenges associated with tabular data. This research endeavors to apply Large Language Models (LLMs) towards addressing these predictive tasks. Despite their proficiency in comprehending natural language, LLMs fall short in dealing with structured tabular data. This limitation stems from their lacking exposure to the intricacies of tabular data during their foundational training. Our research aims to mitigate this gap by compiling a comprehensive corpus of tables annotated with instructions and executing large-scale training of Llama-2 on this enriched dataset. Furthermore, we investigate the practical application of applying the trained model to zero-shot prediction, few-shot prediction, and in-context learning scenarios. Through extensive experiments, our methodology has shown significant improvements over existing benchmarks. These advancements highlight the efficacy of tailoring LLM training to solve table-related problems in data science, thereby establishing a new benchmark in the utilization of LLMs for enhancing tabular intelligence.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# 量子強化機械学習によるクレディ・スコーリングシステム

Empowering Credit Scoring Systems with Quantum-Enhanced Machine Learning ( http://arxiv.org/abs/2404.00015v3 )

ライセンス: Link先を確認
Javier Mancilla, André Sequeira, Tomas Tagliani, Francisco Llaneza, Claudio Beiza, (参考訳) 量子カーネルは、量子機械学習にアーリーステージの有用性を提供するために計画されている。 しかし、高度に洗練された古典モデルは解釈可能性を失うことなく、特に膨大なデータセットを活用できなければ、超え難い。 それでも、古典的なモデルはデータが不足して歪んでしまえば苦労する。 量子特徴空間は、このような困難なシナリオや最も重要なのは、拡張された一般化機能であっても予測されるデータ特徴とターゲットクラスの間のより良いリンクを見つけるために投影される。 本研究では,SQS(Systemic Quantum Score)と呼ばれる新しい手法を提案し,金融セクターの製品グレードユースケースにおける純粋に古典的なモデルに対する潜在的な優位性を示す予備的な結果を提示する。 SQSは、特定の研究で、少ないデータポイントからパターンを抽出する能力が向上し、XGBoostのようなデータハングリーアルゴリズムの性能が向上し、FinTechやNeobankのような競争市場において有利になることを示した。

Quantum Kernels are projected to provide early-stage usefulness for quantum machine learning. However, highly sophisticated classical models are hard to surpass without losing interpretability, particularly when vast datasets can be exploited. Nonetheless, classical models struggle once data is scarce and skewed. Quantum feature spaces are projected to find better links between data features and the target class to be predicted even in such challenging scenarios and most importantly, enhanced generalization capabilities. In this work, we propose a novel approach called Systemic Quantum Score (SQS) and provide preliminary results indicating potential advantage over purely classical models in a production grade use case for the Finance sector. SQS shows in our specific study an increased capacity to extract patterns out of fewer data points as well as improved performance over data-hungry algorithms such as XGBoost, providing advantage in a competitive market as it is the FinTech and Neobank regime.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# 大規模歩行とサイクリングネットワークのモデル化:携帯電話とクラウドソーシングデータを用いた機械学習アプローチ

Modeling Large-Scale Walking and Cycling Networks: A Machine Learning Approach Using Mobile Phone and Crowdsourced Data ( http://arxiv.org/abs/2404.00162v2 )

ライセンス: Link先を確認
Meead Saberi, Tanapon Lilasathapornkit, (参考訳) ウォーキングとサイクリングは、健康、環境、経済的優位性をもたらすことが知られている。 しかし,エビデンスに基づくアクティブな交通計画や政策の開発は,クラウドソースデータの偏りや携帯電話データの代表性といったデータ制限によって妨げられている。 本研究では,オーストラリア・ニューサウスウェールズ州の大規模地域ネットワークにおいて,128,999本の歩行リンクと114,885本のサイクリングリンクを含む1日あたりの歩行量とサイクリング量を推定するための機械学習に基づくモデリング手法を開発し,適用した。 このモデリング手法は、クラウドソースと携帯電話のデータに加えて、人口、土地利用、地形、気候などに関するさまざまなデータセットを活用している。 本研究は、モデル化されたネットワークの地理的な範囲と、観測された歩行およびサイクリング数データの相対的不足を考慮し、モデルトレーニング、テスト、推論の3つの側面にまつわる固有の課題と限界について論じる。 また、モデル推定アウトレーヤを特定し、その影響を軽減するための新しい手法も提案している。 全体として、この研究は、先進的なデータ駆動モデリング手法による活発な交通インフラ計画と政策の強化を目指す交通モデル、政策立案者、都市計画者に貴重なリソースを提供する。

Walking and cycling are known to bring substantial health, environmental, and economic advantages. However, the development of evidence-based active transportation planning and policies has been impeded by significant data limitations, such as biases in crowdsourced data and representativeness issues of mobile phone data. In this study, we develop and apply a machine learning based modeling approach for estimating daily walking and cycling volumes across a large-scale regional network in New South Wales, Australia that includes 188,999 walking links and 114,885 cycling links. The modeling methodology leverages crowdsourced and mobile phone data as well as a range of other datasets on population, land use, topography, climate, etc. The study discusses the unique challenges and limitations related to all three aspects of model training, testing, and inference given the large geographical extent of the modeled networks and relative scarcity of observed walking and cycling count data. The study also proposes a new technique to identify model estimate outliers and to mitigate their impact. Overall, the study provides a valuable resource for transportation modelers, policymakers and urban planners seeking to enhance active transportation infrastructure planning and policies with advanced emerging data-driven modeling methodologies.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# InfLoRA:連続学習のための干渉のない低ランク適応

InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning ( http://arxiv.org/abs/2404.00228v3 )

ライセンス: Link先を確認
Yan-Shuo Liang, Wu-Jun Li, (参考訳) 連続学習では、複数のタスクを逐次学習する必要がある。 継続的な学習では、モデルは古いタスク(安定性)でパフォーマンスを維持する能力と、新しいタスクに継続的に適応する能力(塑性)を持つべきである。 近年,パラメータ効率のよい微調整 (PEFT) は,学習済みのモデルを凍結し,下流のタスクに適応するために少数の学習可能なパラメータを注入することで,連続学習において人気が高まっている。 PEFTをベースとした既存の連続学習手法は,PEFTをベースとしないものよりも優れた性能を示したが,そのほとんどが従来のタスクに対する新たなタスクの干渉を排除する方法を考えておらず,モデルが安定性と可塑性のトレードオフを適切に行うことを妨げている。 本研究では,干渉のない低ランク適応(InfLoRA)と呼ばれるPEFT手法を提案する。 InfLoRAは、トレーニング済みの重みを再パラメータ化するために少数のパラメータを注入し、これらのインジェクションされたパラメータを微調整することは、サブスペース内でトレーニング済みの重みを微調整することと同値であることを示す。 さらに、InfLoRAはこのサブスペースを設計し、従来のタスクに対する新しいタスクの干渉を排除し、安定性と可塑性のトレードオフを良好にする。 実験の結果、InfLoRAは複数のデータセット上で既存の最先端の継続的学習方法よりも優れていた。

Continual learning requires the model to learn multiple tasks sequentially. In continual learning, the model should possess the ability to maintain its performance on old tasks (stability) and the ability to adapt to new tasks continuously (plasticity). Recently, parameter-efficient fine-tuning (PEFT), which involves freezing a pre-trained model and injecting a small number of learnable parameters to adapt to downstream tasks, has gained increasing popularity in continual learning. Although existing continual learning methods based on PEFT have demonstrated superior performance compared to those not based on PEFT, most of them do not consider how to eliminate the interference of the new task on the old tasks, which inhibits the model from making a good trade-off between stability and plasticity. In this work, we propose a new PEFT method, called interference-free low-rank adaptation (InfLoRA), for continual learning. InfLoRA injects a small number of parameters to reparameterize the pre-trained weights and shows that fine-tuning these injected parameters is equivalent to fine-tuning the pre-trained weights within a subspace. Furthermore, InfLoRA designs this subspace to eliminate the interference of the new task on the old tasks, making a good trade-off between stability and plasticity. Experimental results show that InfLoRA outperforms existing state-of-the-art continual learning methods on multiple datasets.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# シークレット・キーパー : LLMが個人特性の言語学的マーカーに与える影響

Secret Keepers: The Impact of LLMs on Linguistic Markers of Personal Traits ( http://arxiv.org/abs/2404.00267v2 )

ライセンス: Link先を確認
Zhivar Sourati, Meltem Ozcan, Colin McDaniel, Alireza Ziabari, Nuan Wen, Ala Tak, Fred Morstatter, Morteza Dehghani, (参考訳) 我々の言語パターンは、私たちの個性、感情状態、信念に関する情報を明らかにする。 しかし、日々の執筆におけるアシスタントとしてのLarge Language Models(LLMs)の採用が増加しているため、重要な疑問が浮かび上がっている。 性別,年齢,政治的親和性,性格,共感性,道徳性という6つの異なる特徴にまたがる3つのLLM(GPT3.5,Llama 2,Gemini)の言語マーカーに対するLLMの影響について検討した。 その結果, LLMの使用は, 著者の個人的特徴に対する言語パターンの予測力をわずかに低下させるが, 顕著な変化は稀であり, 著者の個人的特徴に対する言語パターンの予測力を完全に低下させるものではないことが示唆された。 また, 理論的に確立された語彙に基づく言語マーカーは, LLMを記述プロセスで使用する場合, 予測因子として信頼性を失うことに留意する。 LLMの時代における個人的特徴の言語マーカーの研究に重要な意味を持つ。

Prior research has established associations between individuals' language usage and their personal traits; our linguistic patterns reveal information about our personalities, emotional states, and beliefs. However, with the increasing adoption of Large Language Models (LLMs) as writing assistants in everyday writing, a critical question emerges: are authors' linguistic patterns still predictive of their personal traits when LLMs are involved in the writing process? We investigate the impact of LLMs on the linguistic markers of demographic and psychological traits, specifically examining three LLMs - GPT3.5, Llama 2, and Gemini - across six different traits: gender, age, political affiliation, personality, empathy, and morality. Our findings indicate that although the use of LLMs slightly reduces the predictive power of linguistic patterns over authors' personal traits, the significant changes are infrequent, and the use of LLMs does not fully diminish the predictive power of authors' linguistic patterns over their personal traits. We also note that some theoretically established lexical-based linguistic markers lose their reliability as predictors when LLMs are used in the writing process. Our findings have important implications for the study of linguistic markers of personal traits in the age of LLMs.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# 大規模言語モデルに基づくインストラクション駆動型ゲームエンジン

Instruction-Driven Game Engines on Large Language Models ( http://arxiv.org/abs/2404.00276v2 )

ライセンス: Link先を確認
Hongqiu Wu, Y. Wang, Xingyuan Liu, Hai Zhao, Min Zhang, (参考訳) Instruction-Driven Game Engine(IDGE)プロジェクトは、大規模言語モデル(LLM)が自由形式のゲームルールに従い、自律的にゲームプレイプロセスを生成できるようにすることで、ゲーム開発を民主化することを目的としている。 IDGEは、ユーザーが単純な自然言語命令を発行することでゲームを作成することができるため、ゲーム開発における障壁は大幅に低下する。 我々は,IDGEの学習過程を次の状態予測タスクとしてアプローチし,ゲーム内状態を自動回帰予測する。 ゲーム内状態の計算が正確でなければならず、さもなくばわずかなエラーでゲームプレイが破壊される可能性があるため、これは難しいタスクである。 これを解決するために、我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。 私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。 私たちが設計したエンジンは、幅広いポーカー変種をサポートするだけでなく、自然言語入力によるルールの高度なカスタマイズも可能にしています。 さらに、最小限のサンプルから新しいゲームの迅速なプロトタイピングを推奨し、最小限のプロンプトとデータエンジニアリングに依存するゲーム開発における革新的なパラダイムを提案している。 この研究は、命令駆動型ゲーム作成の今後の進歩の基盤となり、ゲームの設計とプレイの仕方を変える可能性がある。

The Instruction-Driven Game Engine (IDGE) project aims to democratize game development by enabling a large language model (LLM) to follow free-form game rules and autonomously generate game-play processes. The IDGE allows users to create games by issuing simple natural language instructions, which significantly lowers the barrier for game development. We approach the learning process for IDGEs as a Next State Prediction task, wherein the model autoregressively predicts in-game states given player actions. It is a challenging task because the computation of in-game states must be precise; otherwise, slight errors could disrupt the game-play. To address this, we train the IDGE in a curriculum manner that progressively increases the model's exposure to complex scenarios. Our initial progress lies in developing an IDGE for Poker, a universally cherished card game. The engine we've designed not only supports a wide range of poker variants but also allows for high customization of rules through natural language inputs. Furthermore, it also favors rapid prototyping of new games from minimal samples, proposing an innovative paradigm in game development that relies on minimal prompt and data engineering. This work lays the groundwork for future advancements in instruction-driven game creation, potentially transforming how games are designed and played.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# 自由電子と光子の間の最大量子相互作用

Maximal quantum interaction between free electrons and photons ( http://arxiv.org/abs/2404.00377v2 )

ライセンス: Link先を確認
Zetao Xie, Zeling Chen, Hao Li, Qinghui Yan, Hongsheng Chen, Xiao Lin, Ido Kaminer, Owen D. Miller, Yi Yang, (参考訳) 自由電子量子光学の新しい分野は、電子-光子絡み合いを可能にし、量子情報処理のための非自明な光子状態を生成する可能性を持っている。 最近の実験的研究は量子状態に入ったが、急激な理論的発展は、定性的にユニークな現象は特定の相互作用強度を超えるだけであると予測している。 したがって、最大電子-光子相互作用強度とそれに近づくことができる材料、幾何学、粒子エネルギーを同定することが重要となる。 我々は、自由電子と単一モード光子の間の量子真空相互作用強度に上限を与え、最も強い相互作用の条件を照らす。 重要なことに、電子と光子の明示的なエネルギー選択法は、任意の分離で最大相互作用を達成し、中間速度の電子よりも速い電子または遅い電子を優先する2つの最適状態を特定する。 標準測地解析および数値計算によりその限界を検証し、強い量子相互作用の実現可能性を示す準最適設計を提供する。 我々の研究は、自由電子と光子の間の量子相互作用を最大化するための基本的な直観を提供し、電子-光子および電子-光子-光子の絡み合いに関する将来の実験のための実用的な設計規則を提供する。 また、自由電子放射源の最大出力や誘電体レーザー加速器の最大加速勾配などの応用のための重要な指標の評価を可能にする必要がある。

The emerging field of free-electron quantum optics enables electron-photon entanglement and holds the potential for generating nontrivial photon states for quantum information processing. Although recent experimental studies have entered the quantum regime, rapid theoretical developments predict that qualitatively unique phenomena only emerge beyond a certain interaction strength. It is thus pertinent to identify the maximal electron-photon interaction strength and the materials, geometries, and particle energies that enable one to approach it. We derive an upper limit to the quantum vacuum interaction strength between free electrons and single-mode photons, which illuminates the conditions for the strongest interaction. Crucially, we obtain an explicit energy selection recipe for electrons and photons to achieve maximal interaction at arbitrary separations and identify two optimal regimes favoring either fast or slow electrons over those with intermediate velocities. We validate the limit by analytical and numerical calculations on canonical geometries and provide near-optimal designs indicating the feasibility of strong quantum interactions. Our findings offer fundamental intuition for maximizing the quantum interaction between free electrons and photons and provide practical design rules for future experiments on electron-photon and electron-mediated photon-photon entanglement. They should also enable the evaluation of key metrics for applications such as the maximum power of free-electron radiation sources and the maximum acceleration gradient of dielectric laser accelerators.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# 不整合マイニングに基づくオブジェクトレベルのコピー・モーブ偽画像検出

Object-level Copy-Move Forgery Image Detection based on Inconsistency Mining ( http://arxiv.org/abs/2404.00611v2 )

ライセンス: Link先を確認
Jingyu Wang, Niantai Jing, Ziyao Liu, Jie Nie, Yuxin Qi, Chi-Hung Chi, Kwok-Yan Lam, (参考訳) コピー・ムーブの改ざん操作では、加害者はしばしばぼやけなどの技法を使って改ざんした痕跡を隠蔽し、無傷な構造を持つオブジェクトレベルの標的の検出に重大な課題を提起する。 これらの課題に焦点をあて,不整合マイニング(IMNet)に基づくオブジェクトレベルのコピー・モーブ・フォージェリ画像検出を提案する。 オブジェクトレベルの完全なターゲットを得るために、ソースと改ざんされた領域のプロトタイプをカスタマイズし、動的に更新する。 さらに, 自己相関計算により得られた粗い類似領域と, プロトタイプからなる領域との間に不整合領域を抽出する。 検出された不整合領域は、同様の領域を粗くし、画素レベルの検出を洗練させるサプリメントとして使用される。 提案するIMNetの有効性とロバスト性を検証した3つの公開データセットについて実験を行った。

In copy-move tampering operations, perpetrators often employ techniques, such as blurring, to conceal tampering traces, posing significant challenges to the detection of object-level targets with intact structures. Focus on these challenges, this paper proposes an Object-level Copy-Move Forgery Image Detection based on Inconsistency Mining (IMNet). To obtain complete object-level targets, we customize prototypes for both the source and tampered regions and dynamically update them. Additionally, we extract inconsistent regions between coarse similar regions obtained through self-correlation calculations and regions composed of prototypes. The detected inconsistent regions are used as supplements to coarse similar regions to refine pixel-level detection. We operate experiments on three public datasets which validate the effectiveness and the robustness of the proposed IMNet.
翻訳日:2024-04-04 11:53:45 公開日:2024-04-03
# 強化学習における価値関数の不確かさの促進を目的とした最大平均差バリーセンタの利用

Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning ( http://arxiv.org/abs/2404.00686v2 )

ライセンス: Link先を確認
Srinjoy Roy, Swagatam Das, (参考訳) 価値関数の不確実性の会計は、強化学習(RL)における探索を促進する。 本研究は,時間差(TD)更新時の不確実性伝搬に対するワッサースタインQラーニング(WQL)を改善するために,最大平均離散Qラーニング(MMD-QL)を提案する。 MMD-QLはこの目的のためにMDDバリーセンタを使用し、MDDはワッサーシュタイン距離よりも確率測度間の密接度を厳密に見積もっている。 まず, MMD-QL が平均損失量で MDP (PAC-MDP) のほぼ正当であることが確認された。 累積報酬に関して、表環境の実験では、MDD-QLがWQLやその他のアルゴリズムより優れていることが示されている。 次に、深層ネットワークをMDD-QLに組み込んで、MDD Q-Network(MMD-QN)を作成する。 妥当な仮定を仮定し,関数近似を用いてMDD-QNの収束速度を解析する。 Atariゲームにおける実験的な結果から,MDD-QNはベンチマークの深いRLアルゴリズムと比較して高い性能を示し,大きな状態対応空間を扱う上での有効性を強調した。

Accounting for the uncertainty of value functions boosts exploration in Reinforcement Learning (RL). Our work introduces Maximum Mean Discrepancy Q-Learning (MMD-QL) to improve Wasserstein Q-Learning (WQL) for uncertainty propagation during Temporal Difference (TD) updates. MMD-QL uses the MMD barycenter for this purpose, as MMD provides a tighter estimate of closeness between probability measures than the Wasserstein distance. Firstly, we establish that MMD-QL is Probably Approximately Correct in MDP (PAC-MDP) under the average loss metric. Concerning the accumulated rewards, experiments on tabular environments show that MMD-QL outperforms WQL and other algorithms. Secondly, we incorporate deep networks into MMD-QL to create MMD Q-Network (MMD-QN). Making reasonable assumptions, we analyze the convergence rates of MMD-QN using function approximation. Empirical results on challenging Atari games demonstrate that MMD-QN performs well compared to benchmark deep RL algorithms, highlighting its effectiveness in handling large state-action spaces.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# ChatGLM-RLHF:人間のフィードバックによる大規模言語モデルの調整の実践

ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback ( http://arxiv.org/abs/2404.00934v2 )

ライセンス: Link先を確認
Zhenyu Hou, Yilin Niu, Zhengxiao Du, Xiaohan Zhang, Xiao Liu, Aohan Zeng, Qinkai Zheng, Minlie Huang, Hongning Wang, Jie Tang, Yuxiao Dong, (参考訳) ChatGLMは、大規模な言語モデル(LLM)のChatGLMファミリを利用した、無償のAIサービスである。 本稿では,ChatGLM-RLHFパイプラインについて述べる。 ChatGLM-RLHFは、人間の嗜好データの収集、報酬モデルのトレーニング、ポリシーの最適化の3つの主要なコンポーネントを含んでいる。 ChatGLM-RLHFを製品に統合するプロセスを通じて、私たちはいくつかの前例のない課題に遭遇し、対処しました。 大規模訓練における報酬分散を緩和する戦略を導入し, 連立モデルによるモデル並列化を実現し, LLMにおける破滅的な忘れ込みを避けるための正規化制約を設計する。 実験により、ChatGLM-RLHFは、教師付き微調整(SFT)バージョンのChatGLMと比較して、アライメントタスクに大きな改善をもたらすことが示された。 例えば、中国のアライメントタスクにおいて、ChatGLM-SFTに対する平均15倍の勝利を達成する。 本研究は,LLHF実装における課題とソリューションに関する洞察を提供するとともに,LLMと人間の嗜好の整合性を示す。

ChatGLM is a free-to-use AI service powered by the ChatGLM family of large language models (LLMs). In this paper, we present the ChatGLM-RLHF pipeline -- a reinforcement learning from human feedback (RLHF) system -- designed to enhance ChatGLM's alignment with human preferences. ChatGLM-RLHF encompasses three major components: the collection of human preference data, the training of the reward model, and the optimization of policies. Throughout the process of integrating ChatGLM-RLHF into production, we encountered and addressed several unprecedented challenges. We introduce the strategies to mitigate reward variance for stabilized large-scale training, implement model parallelism with fused gradient-descent, and design regularization constraints to avoid catastrophic forgetting in LLMs. Experiments show that ChatGLM-RLHF brings significant improvements in alignment tasks compared to the supervised fine-tuned (SFT) version of ChatGLM. For instance, it achieves on average 15\% more wins against ChatGLM-SFT in Chinese alignment tasks. The work presents our practices of aligning LLMs with human preferences, offering insights into the challenges and solutions in RLHF implementations.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# 言語ガイドドメイン一般化医用画像分割

Language Guided Domain Generalized Medical Image Segmentation ( http://arxiv.org/abs/2404.01272v2 )

ライセンス: Link先を確認
Shahina Kunhimon, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, (参考訳) 単一ソースドメインの一般化(SDG)は、特にデータプライバシと取得コストの制約によって、さまざまなデータセットの可用性が制限される医療領域において、実際の臨床領域におけるより信頼性が高く一貫性のあるイメージセグメンテーションを約束する。 視覚的特徴のみにのみ依存することで、様々な領域に効果的に適応するモデルの能力が損なわれる。 テキスト機能を視覚的特徴と一緒に組み込むことは、ピクセルレベルの情報を超えて貴重なコンテキストを提供するため、モデルによるデータの理解を強化するための潜在的な解決策である。 解剖学的構造、その外観、様々な画像モダリティのバリエーションを記述したテキストの手がかりは、ドメイン適応においてモデルを導くことができ、最終的にはより堅牢で一貫したセグメンテーションに寄与する。 本稿では,テキストエンコーダの特徴に導かれるコントラスト学習機構を取り入れて,より堅牢な特徴表現を学習することで,テキスト情報を明確に活用する手法を提案する。 我々は,テキスト誘導型コントラスト機能アライメント手法の有効性を,異なるセグメンテーションタスクのためのクロスモーダル,クロスシーケンス,クロスサイト設定など様々なシナリオで評価する。 文献における既存手法に対して,本手法は良好な性能を発揮する。 コードとモデルの重み付けはhttps://github.com/ShahinaKK/LG_SDG.git.comで公開されています。

Single source domain generalization (SDG) holds promise for more reliable and consistent image segmentation across real-world clinical settings particularly in the medical domain, where data privacy and acquisition cost constraints often limit the availability of diverse datasets. Depending solely on visual features hampers the model's capacity to adapt effectively to various domains, primarily because of the presence of spurious correlations and domain-specific characteristics embedded within the image features. Incorporating text features alongside visual features is a potential solution to enhance the model's understanding of the data, as it goes beyond pixel-level information to provide valuable context. Textual cues describing the anatomical structures, their appearances, and variations across various imaging modalities can guide the model in domain adaptation, ultimately contributing to more robust and consistent segmentation. In this paper, we propose an approach that explicitly leverages textual information by incorporating a contrastive learning mechanism guided by the text encoder features to learn a more robust feature representation. We assess the effectiveness of our text-guided contrastive feature alignment technique in various scenarios, including cross-modality, cross-sequence, and cross-site settings for different segmentation tasks. Our approach achieves favorable performance against existing methods in literature. Our code and model weights are available at https://github.com/ShahinaKK/LG_SDG.git.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# AAA : 局所的に異なる個人平均推定のための適応的メカニズム

AAA: an Adaptive Mechanism for Locally Differential Private Mean Estimation ( http://arxiv.org/abs/2404.01625v2 )

ライセンス: Link先を確認
Fei Wei, Ergute Bao, Xiaokui Xiao, Yin Yang, Bolin Ding, (参考訳) ローカルディファレンシャルプライバシ(LDP)は、一般的なソフトウェアシステムで採用されている強力なプライバシ標準である。 主な考え方は、個々のデータがローカルに摂動し、結果のノイズバージョンをデータアグリゲータにのみ送信するというものである。 様々な種類の集約の計算やLDPによる機械学習アプリケーションの構築に多くの努力が注がれているが、近年は基本的な摂動機構の研究は大きな進歩を遂げていない。 より洗練された結果ユーティリティを目指して、既存の作業は主に最悪のケースの保証を改善することに焦点を当てている。 しかし、実際にはデータが特定の分布に従うという事実を考えると、このアプローチは必ずしもより良い平均性能を約束するわけではない。 本稿では,平均効用に対処し,古典的平均推定問題に対処する分布認識手法である高度適応型加算(AAA)機構を提案する。 AAAは、2段階のアプローチで実行される: まず、グローバルなデータ分布が事前に利用できないため、データ集約器は、(ノイズの多い)量子化されたデータ記述子を計算するために、個人のランダムなサブセットを選択し、次に、データ集約器は、分布を意識した方法で、残りの個人からデータを収集する。 後者のステップに関わる摂動は、前ステップで得られたデータ記述子とタスク決定ユーティリティの所望の特性とで定式化された最適化問題を解くことにより得られる。 我々は、厳密なプライバシー証明、ユーティリティ分析、そしてAAAと最先端のメカニズムを比較した広範な実験を提供する。 評価結果は、AAAメカニズムが、幅広いプライバシー制約と実世界および合成データセットに基づいて、結果ユーティリティの観点から、既存のソリューションよりも明確なマージンで一貫して優れていることを示す。

Local differential privacy (LDP) is a strong privacy standard that has been adopted by popular software systems. The main idea is that each individual perturbs their own data locally, and only submits the resulting noisy version to a data aggregator. Although much effort has been devoted to computing various types of aggregates and building machine learning applications under LDP, research on fundamental perturbation mechanisms has not achieved significant improvement in recent years. Towards a more refined result utility, existing works mainly focus on improving the worst-case guarantee. However, this approach does not necessarily promise a better average performance given the fact that the data in practice obey a certain distribution, which is not known beforehand. In this paper, we propose the advanced adaptive additive (AAA) mechanism, which is a distribution-aware approach that addresses the average utility and tackles the classical mean estimation problem. AAA is carried out in a two-step approach: first, as the global data distribution is not available beforehand, the data aggregator selects a random subset of individuals to compute a (noisy) quantized data descriptor; then, the data aggregator collects data from the remaining individuals, which are perturbed in a distribution-aware fashion. The perturbation involved in the latter step is obtained by solving an optimization problem, which is formulated with the data descriptor obtained in the former step and the desired properties of task-determined utilities. We provide rigorous privacy proofs, utility analyses, and extensive experiments comparing AAA with state-of-the-art mechanisms. The evaluation results demonstrate that the AAA mechanism consistently outperforms existing solutions with a clear margin in terms of result utility, on a wide range of privacy constraints and real-world and synthetic datasets.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# 自然言語に対する一般化可能かつ忠実な論理推論に向けて : 解答論を通して

Towards Generalizable and Faithful Logic Reasoning over Natural Language via Resolution Refutation ( http://arxiv.org/abs/2404.01677v2 )

ライセンス: Link先を確認
Zhouhao Sun, Xiao Ding, Li Du, Bibo Cai, Jinglong Gao, Ting Liu, Qin Bing, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語推論タスクにおいて大きなパフォーマンスを実現している。 しかし、彼らは自然言語で表される形式論理理論について一階述語論理論を行うのに苦戦している。 これは、従来の LLM ベースの推論システムには理論的不完全性の問題があったためである。 その結果、単純な推論の問題にのみ対処でき、一般化能力は著しく低下する。 この問題に対処するため,我々はGFaiR(Generalizable and Faithful Reasoner)という新しいフレームワークを提案する。 解法解法は, 解法則を拡張し, 矛盾による証明の原理を取り入れた一階述語論理推論問題を全て解くことができるので, 解法解法を導入することにより, システムの完全性を向上させることができる。 実験結果から,本システムは複雑なシナリオにおける最先端の性能と,単純なシナリオにおける性能の維持を両立させることにより,従来よりも優れていた性能を実証した。 さらに、GFaiRはその推論過程に忠実であることを示す。

Large language models (LLMs) have achieved significant performance in various natural language reasoning tasks. However, they still struggle with performing first-order logic reasoning over formal logical theories expressed in natural language. This is because the previous LLMs-based reasoning systems have the theoretical incompleteness issue. As a result, it can only address a limited set of simple reasoning problems, which significantly decreases their generalization ability. To address this issue, we propose a novel framework, named Generalizable and Faithful Reasoner (GFaiR), which introduces the paradigm of resolution refutation. Resolution refutation has the capability to solve all first-order logic reasoning problems by extending reasoning rules and employing the principle of proof by contradiction, so our system's completeness can be improved by introducing resolution refutation. Experimental results demonstrate that our system outperforms previous works by achieving state-of-the-art performances in complex scenarios while maintaining performances in simple scenarios. Besides, we observe that GFaiR is faithful to its reasoning process.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# MotionChain:マルチモーダルプロンプトによる会話型モーションコントローラ

MotionChain: Conversational Motion Controllers via Multimodal Prompts ( http://arxiv.org/abs/2404.01700v2 )

ライセンス: Link先を確認
Biao Jiang, Xin Chen, Chi Zhang, Fukun Yin, Zhuoyuan Li, Gang YU, Jiayuan Fan, (参考訳) 言語モデルの最近の進歩は、多ターン対話の実施と会話の文脈の維持において、その適応性を実証している。 しかしながら、この習熟度は他のマルチモーダル生成モデル、特にヒトの運動モデルにおいてほとんど探索されていない。 連続的な仮想人間の動きを制御するために多ターン会話を統合することで、人型ロボット、ゲームエージェント、または他の具体的システムに対する人間のタスク実行の直感的でステップバイステップのプロセスを実現することができる。 本研究では,マルチモーダルプロンプトによる人間の連続的・長期的動作を生成する対話型モーションコントローラであるMotionChainを紹介する。 具体的には、MotionChainは、テキスト、画像、モーションなどのさまざまなデータ型を個別のトークンに変換するマルチモーダルトークンライザと、Vision-Motion-Aware Languageモデルで構成される。 そこでMotionChainは、大規模言語、視覚言語、視覚運動データを活用して、動作関連生成タスクを支援することにより、マルチターン会話における各命令を理解し、それに続く人間の動作を生成する。 広範囲にわたる実験は、モーションチェインの有効性を検証し、会話の動作生成における最先端のパフォーマンスを実証し、仮想人間と制御し相互作用するより直感的な方法を示した。

Recent advancements in language models have demonstrated their adeptness in conducting multi-turn dialogues and retaining conversational context. However, this proficiency remains largely unexplored in other multimodal generative models, particularly in human motion models. By integrating multi-turn conversations in controlling continuous virtual human movements, generative human motion models can achieve an intuitive and step-by-step process of human task execution for humanoid robotics, game agents, or other embodied systems. In this work, we present MotionChain, a conversational human motion controller to generate continuous and long-term human motion through multimodal prompts. Specifically, MotionChain consists of multi-modal tokenizers that transform various data types such as text, image, and motion, into discrete tokens, coupled with a Vision-Motion-aware Language model. By leveraging large-scale language, vision-language, and vision-motion data to assist motion-related generation tasks, MotionChain thus comprehends each instruction in multi-turn conversation and generates human motions followed by these prompts. Extensive experiments validate the efficacy of MotionChain, demonstrating state-of-the-art performance in conversational motion generation, as well as more intuitive manners of controlling and interacting with virtual humans.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# AddSR: 逆拡散蒸留を併用したBlind Super-Resolutionの高速化

AddSR: Accelerating Diffusion-based Blind Super-Resolution with Adversarial Diffusion Distillation ( http://arxiv.org/abs/2404.01717v2 )

ライセンス: Link先を確認
Rui Xie, Ying Tai, Kai Zhang, Zhenyu Zhang, Jun Zhou, Jian Yang, (参考訳) 低分解能入力からの複雑な詳細で鮮明な高分解能画像の再構成における, 安定拡散ショーケースに基づくブラインド超解像法 しかし、その実用性はしばしば、数千から数百のサンプリングステップの要求から生じる、効率の悪さによって妨げられている。 本稿では, 効率的なテキスト対画像拡散蒸留法 (ADD) に着想を得て, 蒸留と制御ネットの両方のアイデアを取り入れたAddSRを設計する。 具体的には、まず、学生モデル出力の高頻度情報に限界的な追加時間コストで提供する予測に基づく自己抑止戦略を提案する。 さらに、LR画像ではなくHR画像を用いて教師モデルを制御することにより、トレーニングプロセスを洗練し、蒸留のより堅牢な制約を提供する。 第2に、ADDが導入した知覚歪不均衡問題に対処するために、タイムステップ適応損失を導入する。 拡張実験により、AddSRは、従来のSDベースの最先端モデル(例えば、SeeSRより7倍高速)よりも高速に、より優れた復元結果が得られた。

Blind super-resolution methods based on stable diffusion showcase formidable generative capabilities in reconstructing clear high-resolution images with intricate details from low-resolution inputs. However, their practical applicability is often hampered by poor efficiency, stemming from the requirement of thousands or hundreds of sampling steps. Inspired by the efficient text-to-image approach adversarial diffusion distillation (ADD), we design AddSR to address this issue by incorporating the ideas of both distillation and ControlNet. Specifically, we first propose a prediction-based self-refinement strategy to provide high-frequency information in the student model output with marginal additional time cost. Furthermore, we refine the training process by employing HR images, rather than LR images, to regulate the teacher model, providing a more robust constraint for distillation. Second, we introduce a timestep-adapting loss to address the perception-distortion imbalance problem introduced by ADD. Extensive experiments demonstrate our AddSR generates better restoration results, while achieving faster speed than previous SD-based state-of-the-art models (e.g., 7x faster than SeeSR).
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# Octopus v2:スーパーエージェントのオンデバイス言語モデル

Octopus v2: On-device language model for super agent ( http://arxiv.org/abs/2404.01744v2 )

ライセンス: Link先を確認
Wei Chen, Zhiyuan Li, (参考訳) 言語モデルは様々なソフトウェアアプリケーション、特に自動ワークフローに関連するタスクにおいて有効性を示している。 これらのモデルには、AIエージェントを作成する上で不可欠な機能を呼び出す重要な能力がある。 クラウド環境での大規模言語モデルのパフォーマンスは高いが、プライバシやコストに関する懸念に関係していることが多い。 関数呼び出しの現在のオンデバイスモデルには、レイテンシと正確性がある。 本研究では,20億のパラメータを持つデバイス上でのモデルを用いて,GPT-4の性能を精度とレイテンシの両方で上回り,コンテキスト長を95%削減する手法を提案する。 Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。 この方法では,実環境におけるさまざまなエッジデバイスへのデプロイに適したレベルへの遅延を低減し,実環境アプリケーションのパフォーマンス要件に適合する。

Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# Fibonacci Anyonsを用いたトポロジカル量子計算への対角コセットアプローチ

Diagonal Coset Approach to Topological Quantum Computation with Fibonacci Anyons ( http://arxiv.org/abs/2404.01779v2 )

ライセンス: Link先を確認
Lachezar S. Georgiev, Ludmil Hadjiivanov, Grigori Matein, (参考訳) フィボナッチ・アロンに基づく位相量子計算のための有望な共形場理論実現スキームについて検討し, 補充係数$\nu=12/5$で第2ランダウの準粒子励起$\mathbb{Z}_3$パラフェルミオン分数量子ホール状態において, 準粒子励起として実現されると考えられる。 これらのエノンは非アベリア式であり、普遍的な位相量子計算が可能であることが知られている。 量子情報は、これらの非アベリア異性体の対の融合チャネルに符号化され、これらの系のトポロジカルな性質によってノイズやデコヒーレンスから保護され、量子ゲートはこれらの異性体のブレイディングによって実現される。 ここでは、$n+2$ Fibonacci anyon の観点から、$n$-qubit 位相量子レジスタの実装を提案する。 任意の交換から生じる行列、すなわち1量子ビットに対するブレイド群の生成物は、多数の電子孔の座標波関数と、さらに$\mathbb{Z}_3$パラフェルミオン2次元共形場理論において相関関数として表される4つのフィボナッチアロンから導かれる。 4つ以上のエノンに対するブレイド群の表現は、ブレイディングの前にエノンのペアを融合させることで得られ、最終的にはシステムを4エノンに還元する。

We investigate a promising conformal field theory realization scheme for topological quantum computation based on the Fibonacci anyons, which are believed to be realized as quasiparticle excitations in the $\mathbb{Z}_3$ parafermion fractional quantum Hall state in the second Landau level with filling factor $\nu=12/5$. These anyons are non-Abelian and are known to be capable of universal topological quantum computation. The quantum information is encoded in the fusion channels of pairs of such non-Abelian anyons and is protected from noise and decoherence by the topological properties of these systems.The quantum gates are realized by braiding of these anyons. We propose here an implementation of the $n$-qubit topological quantum register in terms of $2n+2$ Fibonacci anyons. The matrices emerging from the anyon exchanges, i.e. the generators of the braid group for one qubit are derived from the coordinate wave functions of a large number of electron holes and 4 Fibonacci anyons which can furthermore be represented as correlation functions in $\mathbb{Z}_3$ parafermionic two-dimensional conformal field theory. The representations of the braid groups for more than 4 anyons are obtained by fusing pairs of anyons before braiding, thus reducing eventually the system to 4 anyons.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# ウェイクアップラジオを用いたニューロモルフィックスプリットコンピューティング:デジタルツインニングによるアーキテクチャと設計

Neuromorphic Split Computing with Wake-Up Radios: Architecture and Design via Digital Twinning ( http://arxiv.org/abs/2404.01815v2 )

ライセンス: Link先を確認
Jiechen Chen, Sangwoo Park, Petar Popovski, H. Vincent Poor, Osvaldo Simeone, (参考訳) ニューロモルフィックコンピューティングは、時間データの間隔を利用して、各ステップでニューロンとシナプスの小さなサブセットを活性化することで、処理エネルギーを削減する。 エッジベースシステムにおけるスプリットコンピューティングのためにデプロイされると、リモートニューロモルフィック処理ユニット(NPU)はスパースインパルス電波(IR)波形を用いて非同期に通信することで通信電力予算を削減できる。 このように、入力信号の間隔は計算と通信の両面で直接省エネに変換される。 しかし、IR伝送では、エネルギー消費全体への主な貢献は、主無線を継続するために必要な電力である。 本研究は,遠隔・無線接続型NPUからなる分割計算機システムに,覚醒無線機構を統合した新しいアーキテクチャを提案する。 覚醒無線に基づくニューロモルフィックスプリットコンピューティングシステムの設計における重要な課題は、検知、覚醒信号検出、意思決定のためのしきい値の選択である。 この問題に対処するため、第2のコントリビューションとして、物理システムのシミュレータであるデジタルツイン(DT)と、理論的信頼性を保証するためのLearning Then Test(LTT)と呼ばれるシーケンシャルな統計的テスト手法を併用した、新しい方法論を提案する。 提案したDT-LTT法は他の設計問題にも広く適用でき、神経形通信にも応用できる。 実験結果は,信頼性の保証と信頼性,エネルギー消費,意思決定の伝達性に関するトレードオフを検証し,設計と分析を検証した。

Neuromorphic computing leverages the sparsity of temporal data to reduce processing energy by activating a small subset of neurons and synapses at each time step. When deployed for split computing in edge-based systems, remote neuromorphic processing units (NPUs) can reduce the communication power budget by communicating asynchronously using sparse impulse radio (IR) waveforms. This way, the input signal sparsity translates directly into energy savings both in terms of computation and communication. However, with IR transmission, the main contributor to the overall energy consumption remains the power required to maintain the main radio on. This work proposes a novel architecture that integrates a wake-up radio mechanism within a split computing system consisting of remote, wirelessly connected, NPUs. A key challenge in the design of a wake-up radio-based neuromorphic split computing system is the selection of thresholds for sensing, wake-up signal detection, and decision making. To address this problem, as a second contribution, this work proposes a novel methodology that leverages the use of a digital twin (DT), i.e., a simulator, of the physical system, coupled with a sequential statistical testing approach known as Learn Then Test (LTT) to provide theoretical reliability guarantees. The proposed DT-LTT methodology is broadly applicable to other design problems, and is showcased here for neuromorphic communications. Experimental results validate the design and the analysis, confirming the theoretical reliability guarantees and illustrating trade-offs among reliability, energy consumption, and informativeness of the decisions.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# RAVE:CLIP誘導バックライト画像強調のための残留ベクトル埋め込み

RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement ( http://arxiv.org/abs/2404.01889v2 )

ライセンス: Link先を確認
Tatiana Gaintseva, Martin Benning, Gregory Slabaugh, (参考訳) 本稿では,教師なしバックライト画像強調作業のためのコントラスト言語画像事前訓練(CLIP)の新たな修正を提案する。 この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。 学習したプロンプトは、画像拡張ネットワークをガイドする。 CLIP-LITフレームワークに基づいて,CLIP誘導のための2つの新しい手法を提案する。 まず、テキスト埋め込みの空間において、プロンプトをチューニングする代わりに、その埋め込みを直接、品質を損なうことなく調整できることを示す。 これにより、トレーニングが加速し、テキストエンコーダを持たない追加のエンコーダの使用が可能になる。 第2に,即時チューニングを必要としない新しい手法を提案する。 代わりに、トレーニングデータからのバックライト画像とバックライト画像のCLIP埋め込みに基づいて、埋め込み空間における残差ベクトルを、バックライト画像とバックライト画像の平均埋め込みとの単純な差として計算する。 このベクターはトレーニング中にエンハンスメントネットワークを誘導し、バックライトイメージを明るい画像の空間にプッシュする。 このアプローチはトレーニング時間を劇的に短縮し、トレーニングを安定化し、教師なしのトレーニング体制と教師なしのトレーニング体制の両方において、アーティファクトなしで高品質な画像を生成する。 さらに、残差ベクトルを解釈し、トレーニングデータのバイアスを明らかにし、潜在的なバイアス補正を可能にすることを示す。

In this paper we propose a novel modification of Contrastive Language-Image Pre-Training (CLIP) guidance for the task of unsupervised backlit image enhancement. Our work builds on the state-of-the-art CLIP-LIT approach, which learns a prompt pair by constraining the text-image similarity between a prompt (negative/positive sample) and a corresponding image (backlit image/well-lit image) in the CLIP embedding space. Learned prompts then guide an image enhancement network. Based on the CLIP-LIT framework, we propose two novel methods for CLIP guidance. First, we show that instead of tuning prompts in the space of text embeddings, it is possible to directly tune their embeddings in the latent space without any loss in quality. This accelerates training and potentially enables the use of additional encoders that do not have a text encoder. Second, we propose a novel approach that does not require any prompt tuning. Instead, based on CLIP embeddings of backlit and well-lit images from training data, we compute the residual vector in the embedding space as a simple difference between the mean embeddings of the well-lit and backlit images. This vector then guides the enhancement network during training, pushing a backlit image towards the space of well-lit images. This approach further dramatically reduces training time, stabilizes training and produces high quality enhanced images without artifacts, both in supervised and unsupervised training regimes. Additionally, we show that residual vectors can be interpreted, revealing biases in training data, and thereby enabling potential bias correction.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# LPSNet: エンド・ツー・エンドヒューマン・ポースとレンズレスイメージングによる形状推定

LPSNet: End-to-End Human Pose and Shape Estimation with Lensless Imaging ( http://arxiv.org/abs/2404.01941v2 )

ライセンス: Link先を確認
Haoyang Ge, Qiao Feng, Hailong Jia, Xiongzheng Li, Xiangjun Yin, You Zhou, Jingyu Yang, Kun Li, (参考訳) レンズレス画像を用いたHPS(Human pose and shape)推定は、プライバシ保護に有用であるだけでなく、この装置の小型で単純な構造のため、隠蔽監視のシナリオにも利用できる。 しかし、この課題は、キャプチャーされた測定の本来のあいまいさと、レンズレスデータから人間のポーズや形状を直接推定する効果的な方法が欠如していることから、重大な課題を提起する。 本稿では,レンズレス計測から知識まで,人間の3次元ポーズと形状を復元する初のエンドツーエンドフレームワークを提案する。 具体的には、光学的に符号化されたマスクを用いてレンズレス計測をデコードし、効率的な特徴抽出を行うマルチスケールレンズレス特徴デコーダを設計する。 また,人間の手足端推定精度を向上させるために,両頭補助補助機構を提案する。 さらに、レンズレスイメージングシステムを構築し、レンズレスイメージングシステムによって取得された様々なデータセットに対して、本手法の有効性を検証する。

Human pose and shape (HPS) estimation with lensless imaging is not only beneficial to privacy protection but also can be used in covert surveillance scenarios due to the small size and simple structure of this device. However, this task presents significant challenges due to the inherent ambiguity of the captured measurements and lacks effective methods for directly estimating human pose and shape from lensless data. In this paper, we propose the first end-to-end framework to recover 3D human poses and shapes from lensless measurements to our knowledge. We specifically design a multi-scale lensless feature decoder to decode the lensless measurements through the optically encoded mask for efficient feature extraction. We also propose a double-head auxiliary supervision mechanism to improve the estimation accuracy of human limb ends. Besides, we establish a lensless imaging system and verify the effectiveness of our method on various datasets acquired by our lensless imaging system.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# AUTODIFF: 構造に基づく医薬品設計のための自己回帰拡散モデリング

AUTODIFF: Autoregressive Diffusion Modeling for Structure-based Drug Design ( http://arxiv.org/abs/2404.02003v2 )

ライセンス: Link先を確認
Xinze Li, Penglei Wang, Tianfan Fu, Wenhao Gao, Chengtao Li, Leilei Shi, Junhong Liu, (参考訳) SBDD(Structure-based drug design)は、標的タンパク質に強く結合する分子を生成することを目的としており、薬物発見において重要な問題である。 しかし、既存のほとんどの手法は、結合角やねじれ角の弱い傾きが原因で、いまだに不正な局所構造や非現実的なコンフォーメーションの問題に悩まされている。 これらの問題を緩和するために,拡散に基づく断片的自己回帰生成モデルであるAUTODIFFを提案する。 具体的には、まず分子の局所構造のコンフォメーションを保存し、SE(3)-同変の畳み込みネットワークとタンパク質-リガンド複合体の相互作用を符号化し、拡散モデルによる分子モチーフ・バイ・モチーフを生成する、コンフォメーションモチーフと呼ばれる新しい分子組立戦略を設計する。 さらに, 生成分子の分子重み付けを同じ範囲で制限し, 評価をより公平かつ実用的なものにすることで, SBDDの評価枠組みも改善する。 CrossDocked2020の大規模な実験により,本手法は,高結合親和性を維持しつつ,有効な構造と配座を持つ現実的な分子を生成する上で,既存のモデルよりも優れていることが示された。

Structure-based drug design (SBDD), which aims to generate molecules that can bind tightly to the target protein, is an essential problem in drug discovery, and previous approaches have achieved initial success. However, most existing methods still suffer from invalid local structure or unrealistic conformation issues, which are mainly due to the poor leaning of bond angles or torsional angles. To alleviate these problems, we propose AUTODIFF, a diffusion-based fragment-wise autoregressive generation model. Specifically, we design a novel molecule assembly strategy named conformal motif that preserves the conformation of local structures of molecules first, then we encode the interaction of the protein-ligand complex with an SE(3)-equivariant convolutional network and generate molecules motif-by-motif with diffusion modeling. In addition, we also improve the evaluation framework of SBDD by constraining the molecular weights of the generated molecules in the same range, together with some new metrics, which make the evaluation more fair and practical. Extensive experiments on CrossDocked2020 demonstrate that our approach outperforms the existing models in generating realistic molecules with valid structures and conformations while maintaining high binding affinity.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# ヒンディー語、タミル語、インド英語のオンライン空間における沈黙の検出・緩和

Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces ( http://arxiv.org/abs/2404.02013v2 )

ライセンス: Link先を確認
Advaitha Vetagiri, Gyandeep Kalita, Eisha Halder, Chetna Taparia, Partha Pakray, Riyanka Manna, (参考訳) オンラインのジェンダーベースのハラスメントは、女性の自由な表現と参加と、デジタル空間における男女の疎外を制限した広範な問題である。 このような乱暴なコンテンツを検出することで、プラットフォームはこの脅威を抑制することができる。 ICON2023では、英語、ヒンディー語、タミル語で注釈付きTwitter投稿のデータセットを提供し、性別による虐待を識別するための分類器を構築しました。 我々のチームであるCNLP-NITS-PPは、テキストデータのセマンティックパターンとシーケンシャルパターンを効果的にモデル化できるCNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。 CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。 文脈に基づく攻撃性を決定するために、BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。 各言語データセットに対するFastTextとGloVeワードの埋め込みを使用して、明示的な乱用、標的とするマイノリティ攻撃、一般犯罪のためにラベル全体で7,600以上のクラウドソースされたアノテーションをトレーニングした。 検証結果は,f1尺度,特に英語0.84に対して高い性能を示した。 我々の実験は、埋め込みとモデルハイパーパラメータのカスタマイズが検出能力をいかに改善するかを明らかにした。 提案されたアーキテクチャは競争で1位にランクされ、コードスイッチングで現実世界のノイズの多いテキストを処理できることが証明された。 この技術は、プラットフォームがIndic言語インターネットユーザーに対してサイバーハラスメントと戦うために、有望な範囲を持つ。 私たちのコードはhttps://github.com/advaithavetagiri/CNLP-NITS-PPにあります。

Online gender-based harassment is a widespread issue limiting the free expression and participation of women and marginalized genders in digital spaces. Detecting such abusive content can enable platforms to curb this menace. We participated in the Gendered Abuse Detection in Indic Languages shared task at ICON2023 that provided datasets of annotated Twitter posts in English, Hindi and Tamil for building classifiers to identify gendered abuse. Our team CNLP-NITS-PP developed an ensemble approach combining CNN and BiLSTM networks that can effectively model semantic and sequential patterns in textual data. The CNN captures localized features indicative of abusive language through its convolution filters applied on embedded input text. To determine context-based offensiveness, the BiLSTM analyzes this sequence for dependencies among words and phrases. Multiple variations were trained using FastText and GloVe word embeddings for each language dataset comprising over 7,600 crowdsourced annotations across labels for explicit abuse, targeted minority attacks and general offences. The validation scores showed strong performance across f1-measures, especially for English 0.84. Our experiments reveal how customizing embeddings and model hyperparameters can improve detection capability. The proposed architecture ranked 1st in the competition, proving its ability to handle real-world noisy text with code-switching. This technique has a promising scope as platforms aim to combat cyber harassment facing Indic language internet users. Our Code is at https://github.com/advaithavetagiri/CNLP-NITS-PP
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03
# 光衛星画像の転送学習を用いた船種分類用統合畳み込みブロック注意モジュールResNet

ResNet with Integrated Convolutional Block Attention Module for Ship Classification Using Transfer Learning on Optical Satellite Imagery ( http://arxiv.org/abs/2404.02135v2 )

ライセンス: Link先を確認
Ryan Donghan Kwon, Gangjoo Robin Nam, Jisoo Tak, Yeom Hyeok, Junseob Shin, Hyerin Cha, Kim Soo Bin, (参考訳) 本研究では,高分解能光リモートセンシング衛星画像を用いた船舶の効率的な分類のための新しい移動学習フレームワークを提案する。 このフレームワークは深層畳み込みニューラルネットワークモデルResNet50をベースにしており、CBAM(Convolutional Block Attention Module)を組み込んでパフォーマンスを向上させる。 CBAMにより、船と背景の微妙な違いを識別しやすくする。 さらに, 本研究は, 各種船種を正確に分類するための伝達学習手法を採用し, 訓練済みモデルの微調整を行った。 光リモートセンシング画像を用いた船種分類において提案手法の有効性を実証し,5クラスで94%の高い分類精度を実現し,既存手法よりも優れた性能を示した。 本研究は、海上監視・管理、違法な漁獲検知、海上交通監視における潜在的な応用について述べる。

This study proposes a novel transfer learning framework for effective ship classification using high-resolution optical remote sensing satellite imagery. The framework is based on the deep convolutional neural network model ResNet50 and incorporates the Convolutional Block Attention Module (CBAM) to enhance performance. CBAM enables the model to attend to salient features in the images, allowing it to better discriminate between subtle differences between ships and backgrounds. Furthermore, this study adopts a transfer learning approach tailored for accurately classifying diverse types of ships by fine-tuning a pre-trained model for the specific task. Experimental results demonstrate the efficacy of the proposed framework in ship classification using optical remote sensing imagery, achieving a high classification accuracy of 94% across 5 classes, outperforming existing methods. This research holds potential applications in maritime surveillance and management, illegal fishing detection, and maritime traffic monitoring.
翻訳日:2024-04-04 11:43:37 公開日:2024-04-03