このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240517となっている論文です。

PDF登録状況(公開日: 20240517)

TitleAuthorsAbstract論文公表日・翻訳日
# エンド・ツー・エンドの小型物体検出に向けたサンプリングの改善

Better Sampling, towards Better End-to-end Small Object Detection ( http://arxiv.org/abs/2407.06127v1 )

ライセンス: Link先を確認
Zile Huang, Chong Zhang, Mingyu Jin, Fangyu Wu, Chengzhi Liu, Xiaobo Jin, (参考訳) 近年,ディープラーニングに基づく汎用物体検出は大きな進歩を遂げているが,小型物体検出の有効性と効率性は依然として不十分である。 これは、このような小さなターゲットの限られた特性だけでなく、高密度で相互に重なり合うことによるものである。 既存のトランスベースの小型物体検出器は、精度と推論速度のギャップを生かしていない。 そこで本研究では,エンドツーエンドフレームワークにおけるサンプリングの強化手法を提案する。 サンプルポイントリファインメント(SPR)は、ローカライズと注意を制限し、関心領域における意味のある相互作用を保持し、誤った情報をフィルタリングする。 スケールアライメントターゲット(ST)は、スケール情報を目標信頼度に統合し、小さなオブジェクト検出のための分類を改善する。 タスク分離型サンプル再重み付け(SR)機構は、重み生成モジュールを用いて、デコーダ層の結果に基づいて、難易度を評価し、分類損失を調整する。 様々なベンチマークの総合的な実験により、提案した検出器は小さな物体を検出するのに優れていることが判明した。 我々のモデルは、VisDroneデータセット上での最先端(SOTA)よりも平均精度(AP)が2.9 %向上し、SODA-Dデータセットでは1.7 %改善されたことを示す。

While deep learning-based general object detection has made significant strides in recent years, the effectiveness and efficiency of small object detection remain unsatisfactory. This is primarily attributed not only to the limited characteristics of such small targets but also to the high density and mutual overlap among these targets. The existing transformer-based small object detectors do not leverage the gap between accuracy and inference speed. To address challenges, we propose methods enhancing sampling within an end-to-end framework. Sample Points Refinement (SPR) constrains localization and attention, preserving meaningful interactions in the region of interest and filtering out misleading information. Scale-aligned Target (ST) integrates scale information into target confidence, improving classification for small object detection. A task-decoupled Sample Reweighting (SR) mechanism guides attention toward challenging positive examples, utilizing a weight generator module to assess the difficulty and adjust classification loss based on decoder layer outcomes. Comprehensive experiments across various benchmarks reveal that our proposed detector excels in detecting small objects. Our model demonstrates a significant enhancement, achieving a 2.9\% increase in average precision (AP) over the state-of-the-art (SOTA) on the VisDrone dataset and a 1.7\% improvement on the SODA-D dataset.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-17
# ENOVA: コスト効率と安定したサーバレスLLMの実現に向けた自動スケーリング

ENOVA: Autoscaling towards Cost-effective and Stable Serverless LLM Serving ( http://arxiv.org/abs/2407.09486v1 )

ライセンス: Link先を確認
Tao Huang, Pengfei Chen, Kyoka Gong, Jocky Hawk, Zachary Bright, Wenxin Xie, Kecheng Huang, Zhi Ji, (参考訳) 大規模言語モデル(LLM)バックエンドシステムの人気が高まっているため、自動スケーリングを備えたマルチGPUクラスタ上でLLMの安定したサーバレスサービスをデプロイすることは一般的であり、必要である。 しかし、マルチGPUクラスタにおけるアプリケーションの多様性とコロケーションが、サービス品質とGPU利用の低下につながるため、課題がある。 これに対処するため、サーバレスLLMサービスへのデプロイメント、監視、自動スケーリングサービスであるENOVAを構築しました。 ENOVAはLLMサービスの実行プロセスを包括的に分解し、ENOVAは任意のGPUクラスタに自動デプロイするための設定推奨モジュールと自動スケーリングのためのパフォーマンス検出モジュールを設計する。 その上に、ENOVAはマルチGPUクラスタスケジューリングのためのデプロイメント実行エンジンを実装している。 実験の結果,ENOVAは他の最先端手法よりも優れており,大規模オンラインシステムでの展開に適していることがわかった。

Since the increasing popularity of large language model (LLM) backend systems, it is common and necessary to deploy stable serverless serving of LLM on multi-GPU clusters with autoscaling. However, there exist challenges because the diversity and co-location of applications in multi-GPU clusters will lead to low service quality and GPU utilization. To address them, we build ENOVA, a deployment, monitoring and autoscaling service towards serverless LLM serving. ENOVA deconstructs the execution process of LLM service comprehensively, based on which ENOVA designs a configuration recommendation module for automatic deployment on any GPU clusters and a performance detection module for autoscaling. On top of them, ENOVA implements a deployment execution engine for multi-GPU cluster scheduling. The experiment results show that ENOVA significantly outperforms other state-of-the-art methods and is suitable for wide deployment in large online systems.
翻訳日:2024-07-22 13:38:25 公開日:2024-05-17
# 新しい産業デザインにおけるIT導入要因:オープンバンキングとデジタル経済

IT Enabling Factors in a new Industry Design: Open Banking and Digital Economy ( http://arxiv.org/abs/2407.09487v1 )

ライセンス: Link先を確認
Carlos Alberto Durigan Junior, Kumiko Oshio Kissimoto, Fernando Jose Barbin Laurindo, (参考訳) 第4次産業革命は情報技術(IT)と戦略資源の統合を促進する。 新たなIT要求と利用は、ビジネスプロセスや企業ガバナンスの変化につながっています。 近年、金融業界はオープンバンキング(OB)と呼ばれる新たな統合銀行モデルを採用しており、暗号通貨の出現がデジタル経済(DE)の実体化につながっている。 これらの事実を踏まえて、オープンバンキングとデジタル経済の事例で示される金融業界において、新しい産業デザイン(またはガバナンス)の概念を可能にするいくつかのIT実現要因について、文献レビューを通じて指摘していくことを期待する。 本論文は、主に文献レビューに基づいて構成され、結果、議論、そして最後に結論が提示される。 有効因子は5つあった。 キーワード:デジタル経済、情報技術(IT)、オープンバンキング。

The fourth industrial revolution promotes the integration of Information Technology (IT) and strategic resources. New IT demands and uses have been leading to changes in business processes and corporate governance. Lately, the financial industry has adopted a new integrated banking model known as Open Banking (OB) and the advent of cryptocurrencies has led to the Digital Economy (DE) materialization. Considering these facts, this paper expects to point out through literature review some IT enabling factors that allow the conception of a new industry design (or governance) specifically in the financial industry illustrated by the cases of the Open Banking and Digital Economy. This paper is structured mostly on literature review, accompanied by results, discussions, and finally, conclusions are presented. It was found five potential enabling factors. Keywords: Digital Economy, Information Technology (IT), Open Banking.
翻訳日:2024-07-22 13:38:25 公開日:2024-05-17
# メモリとコンテキストによるマニフォールド学習

Manifold Learning via Memory and Context ( http://arxiv.org/abs/2407.09488v1 )

ライセンス: Link先を確認
Xin Li, (参考訳) 無限容量のメモリを考えると、学習問題は解決できるだろうか? どうやら自然は、哺乳類の脳の進化によって証明されたように、この問題を解決したようだ。 海馬-大脳皮質系の基礎となる組織原理に着想を得て,記憶と文脈を用いた多様体学習へのナビゲーションに基づくアプローチを提案する。 重要な洞察は、多様体上をナビゲートし、各ルートの位置を直フィット・ツー・ナチュアの帰納的/設計バイアスとして記憶することである。 我々のアプローチは、メモリ(ローカルマップ)とコンテキスト(グローバルインデックス)を介して、感覚運動学習の潜在空間をナビゲートするものとして解釈できるため、ナビゲーションベースと命名する。 グローバル座標内の局所地図のライブラリーへのインデックス化は、海馬と新皮質の結合を模倣する司書としての連想記憶によって収集される。 偏差ジレンマと次元の呪いから脱却することに加え、我々は神経系におけるエピソード記憶とセマンティック記憶によるナビゲーションに基づく学習の生物学的実装について議論する。 ナビゲーションベースの学習のエネルギー効率は、スパイクニューラルネットワークやメムリスタニューラルネットワークなど、新たなインメモリコンピューティングパラダイムのような、非ヴォンニューマンアーキテクチャのハードウェア実装に適している。

Given a memory with infinite capacity, can we solve the learning problem? Apparently, nature has solved this problem as evidenced by the evolution of mammalian brains. Inspired by the organizational principles underlying hippocampal-neocortical systems, we present a navigation-based approach to manifold learning using memory and context. The key insight is to navigate on the manifold and memorize the positions of each route as inductive/design bias of direct-fit-to-nature. We name it navigation-based because our approach can be interpreted as navigating in the latent space of sensorimotor learning via memory (local maps) and context (global indexing). The indexing to the library of local maps within global coordinates is collected by an associative memory serving as the librarian, which mimics the coupling between the hippocampus and the neocortex. In addition to breaking from the notorious bias-variance dilemma and the curse of dimensionality, we discuss the biological implementation of our navigation-based learning by episodic and semantic memories in neural systems. The energy efficiency of navigation-based learning makes it suitable for hardware implementation on non-von Neumann architectures, such as the emerging in-memory computing paradigm, including spiking neural networks and memristor neural networks.
翻訳日:2024-07-22 13:38:25 公開日:2024-05-17
# 大規模言語モデルによる岩石の解釈バイアスの緩和:古環境分析からの考察

Mitigating Interpretation Bias in Rock Records with Large Language Models: Insights from Paleoenvironmental Analysis ( http://arxiv.org/abs/2407.09977v1 )

ライセンス: Link先を確認
Luoqi Wang, Haipeng Li, Linshu Hu, Jiarui Cai, Zhenhong Du, (参考訳) 地球の歴史の再構築は、しばしば岩石の記録から派生した特異な解釈のために重大な課題に直面している。 この問題は長年認識されてきたが、実際には体系的な解決策はない。 本研究では,Large Language Models (LLMs) とリアルタイム検索機能を活用して解釈バイアスに対処し,地質学的解析の精度と信頼性を向上させる革新的な手法を提案する。 この枠組みを堆積学や古地理学に適用することにより、同一データに対する複数の仮説の生成と評価を通じて、解釈バイアスを緩和する効果を実証し、人間のバイアスを効果的に低減することができる。 我々の研究は、古環境研究の精錬におけるLLMの変容ポテンシャルを照らし、地球科学の様々なサブ分野に適用可能性を高め、地球進化のより深くより正確な描写を可能にした。

The reconstruction of Earth's history faces significant challenges due to the nonunique interpretations often derived from rock records. The problem has long been recognized but there are no systematic solutions in practice. This study introduces an innovative approach that leverages Large Language Models (LLMs) along with retrieval augmented generation and real-time search capabilities to counteract interpretation biases, thereby enhancing the accuracy and reliability of geological analyses. By applying this framework to sedimentology and paleogeography, we demonstrate its effectiveness in mitigating interpretations biases through the generation and evaluation of multiple hypotheses for the same data, which can effectively reduce human bias. Our research illuminates the transformative potential of LLMs in refining paleoenvironmental studies and extends their applicability across various sub-disciplines of Earth sciences, enabling a deeper and more accurate depiction of Earth's evolution.
翻訳日:2024-07-22 13:08:55 公開日:2024-05-17
# 脆弱な利害関係者に対するAIの偏見

False consensus biases AI against vulnerable stakeholders ( http://arxiv.org/abs/2407.12143v1 )

ライセンス: Link先を確認
Mengchen Dong, Jean-François Bonnefon, Iyad Rahwan, (参考訳) 福祉給付配分のためのAIシステムの展開は、意思決定の迅速化と重要な支援の迅速な提供を可能にするが、すでに不公平な給付拒否や不正詐欺の告発の増加につながっている。 米国と英国(N=2449)のデータを収集し、クレームと非クレームの人口において、そのようなスピード精度のトレードオフが一般に受け入れられるかどうかを調査する。 本総説では, 請求者と非請求人の相違を目立たせるために, 速度利得のトレードオフを図っている。 福祉請求者は一般人口の比較的少ない割合(例:米国代表者の20%)であるが、この脆弱なグループは福祉システムに配備されたAIを受け入れない傾向にあり、集計データのみをキャリブレーションに使用すると、利害関係者の好みに合わない政策につながるのではないかという懸念が浮き彫りになっている。 本研究は,主張者と非主張者との間の非対称的な洞察をさらに明らかにする。 後者は、正確な視点を取るために金銭的にインセンティブを得たとしても、スピード精度のトレードオフを受け入れる権利を一貫して過大評価している。 このことは、非宣言者の支配的な声に影響された政策決定が、十分に意図されたとしても、福祉AIシステムによって直接影響を受ける人々の実際の嗜好を無視する可能性があることを示唆している。 これらのシステムの設計・展開におけるステークホルダーの関与と透過的なコミュニケーションの必要性,特に電力不均衡を特徴とする状況において,本研究の成果は下記のとおりである。

The deployment of AI systems for welfare benefit allocation allows for accelerated decision-making and faster provision of critical help, but has already led to an increase in unfair benefit denials and false fraud accusations. Collecting data in the US and the UK (N = 2449), we explore the public acceptability of such speed-accuracy trade-offs in populations of claimants and non-claimants. We observe a general willingness to trade off speed gains for modest accuracy losses, but this aggregate view masks notable divergences between claimants and non-claimants. Although welfare claimants comprise a relatively small proportion of the general population (e.g., 20% in the US representative sample), this vulnerable group is much less willing to accept AI deployed in welfare systems, raising concerns that solely using aggregate data for calibration could lead to policies misaligned with stakeholder preferences. Our study further uncovers asymmetric insights between claimants and non-claimants. The latter consistently overestimate claimant willingness to accept speed-accuracy trade-offs, even when financially incentivized for accurate perspective-taking. This suggests that policy decisions influenced by the dominant voice of non-claimants, however well-intentioned, may neglect the actual preferences of those directly affected by welfare AI systems. Our findings underline the need for stakeholder engagement and transparent communication in the design and deployment of these systems, particularly in contexts marked by power imbalances.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-17
# VideoQA-SC:ビデオ質問応答のための適応型セマンティックコミュニケーション

VideoQA-SC: Adaptive Semantic Communication for Video Question Answering ( http://arxiv.org/abs/2406.18538v1 )

ライセンス: Link先を確認
Jiangyuan Guo, Wei Chen, Yuxuan Sun, Jialong Xu, Bo Ai, (参考訳) セマンティック・コミュニケーション(SC)は,テキスト,音声,画像などのマルチモーダルデータを効率的に伝送する可能性を示しているが,ビデオ用SCは主にピクセルレベルの再構成に焦点を当てている。 しかし、これらのSCシステムは下流のインテリジェントなタスクに最適であるかもしれない。 さらに、画素レベルの映像再構成のないSCシステムは、様々な知的タスクの高帯域効率とリアルタイム性能を実現することにより、利点を示す。 このようなシステム設計の難しさは、タスク関連のコンパクトなセマンティック表現の抽出と、ノイズの多いチャネル上での正確な配信にある。 本稿では,ビデオQA-SCと呼ばれるビデオ質問応答(VideoQA)タスクのためのエンドツーエンドのSCシステムを提案する。 我々のゴールは、受信機におけるビデオ再構成の必要性を回避し、ノイズや失速する無線チャンネル上のビデオセマンティクスに基づいて、ビデオQAタスクを直接実行することである。 そこで本研究では,効率的なビデオ意味抽出のための時空間意味エンコーダと,効率的かつ堅牢なビデオ意味伝達のための学習に基づく帯域幅適応型ディープジョイント・ソース・チャネル符号化(DJSCC)方式を提案する。 実験により、TVQA-SCは、幅広いチャンネル条件と帯域幅制約の下で、受信機での映像再構成に依存する従来のDJSCCベースのSCシステムよりも優れていることが示された。 特に、信号対雑音比が低い場合、ビデオQA-SCは、高度なDJSCCベースのSCシステムと比較して、ほぼ99.5%の帯域を同時に節約しながら、解答精度を5.17%向上させることができる。 ビデオアプリケーションにおけるタスク指向のSCシステム設計の可能性を示す。

Although semantic communication (SC) has shown its potential in efficiently transmitting multi-modal data such as text, speeches and images, SC for videos has focused primarily on pixel-level reconstruction. However, these SC systems may be suboptimal for downstream intelligent tasks. Moreover, SC systems without pixel-level video reconstruction present advantages by achieving higher bandwidth efficiency and real-time performance of various intelligent tasks. The difficulty in such system design lies in the extraction of task-related compact semantic representations and their accurate delivery over noisy channels. In this paper, we propose an end-to-end SC system for video question answering (VideoQA) tasks called VideoQA-SC. Our goal is to accomplish VideoQA tasks directly based on video semantics over noisy or fading wireless channels, bypassing the need for video reconstruction at the receiver. To this end, we develop a spatiotemporal semantic encoder for effective video semantic extraction, and a learning-based bandwidth-adaptive deep joint source-channel coding (DJSCC) scheme for efficient and robust video semantic transmission. Experiments demonstrate that VideoQA-SC outperforms traditional and advanced DJSCC-based SC systems that rely on video reconstruction at the receiver under a wide range of channel conditions and bandwidth constraints. In particular, when the signal-to-noise ratio is low, VideoQA-SC can improve the answer accuracy by 5.17% while saving almost 99.5% of the bandwidth at the same time, compared with the advanced DJSCC-based SC system. Our results show the great potential of task-oriented SC system design for video applications.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-17
# TexPainter: マルチビュー一貫性を備えた生成メッシュテクスチャ

TexPainter: Generative Mesh Texturing with Multi-view Consistency ( http://arxiv.org/abs/2406.18539v1 )

ライセンス: Link先を確認
Hongkun Zhang, Zherong Pan, Congyi Zhang, Lifeng Zhu, Xifeng Gao, (参考訳) 近年の事前学習拡散モデルの成功により、野生の任意の3Dメッシュのためのテクスチャの自動生成が可能になった。 しかし、これらのモデルは画面空間で訓練され、マルチビューで一貫したテクスチャ画像に変換することは、出力品質に大きな障害をもたらす。 本稿では,マルチビューの一貫性を実現するための新しい手法を提案する。 提案手法は,事前学習した拡散モデルにおける潜時空間が各カメラビュー毎に別々にノイズを発生させることで,潜時符号を直接操作することで多視点整合性を実現するのが困難であることを示す。 そこで我々は,DDIM (Denoising Diffusion Implicit Models) 方式に基づいて,最適化に基づくカラーフュージョンを用いて一貫性を強制し,勾配バックプロパゲーションにより遅延符号を間接的に修正することを提案する。 本手法は,カメラビュー間の逐次依存性の仮定をさらに緩和する。 一連の一般的な3Dモデルを用いて評価することにより、我々の単純なアプローチは、生成したテクスチャの一貫性と全体的な品質を、競合する最先端技術と比較して改善する。 私たちの実装は、https://github.com/Quantuman134/TexPainterで利用可能です。

The recent success of pre-trained diffusion models unlocks the possibility of the automatic generation of textures for arbitrary 3D meshes in the wild. However, these models are trained in the screen space, while converting them to a multi-view consistent texture image poses a major obstacle to the output quality. In this paper, we propose a novel method to enforce multi-view consistency. Our method is based on the observation that latent space in a pre-trained diffusion model is noised separately for each camera view, making it difficult to achieve multi-view consistency by directly manipulating the latent codes. Based on the celebrated Denoising Diffusion Implicit Models (DDIM) scheme, we propose to use an optimization-based color-fusion to enforce consistency and indirectly modify the latent codes by gradient back-propagation. Our method further relaxes the sequential dependency assumption among the camera views. By evaluating on a series of general 3D models, we find our simple approach improves consistency and overall quality of the generated textures as compared to competing state-of-the-arts. Our implementation is available at: https://github.com/Quantuman134/TexPainter
翻訳日:2024-07-01 06:12:00 公開日:2024-05-17
# BugBlitz-AI: インテリジェントQAアシスタント

BugBlitz-AI: An Intelligent QA Assistant ( http://arxiv.org/abs/2406.04356v1 )

ライセンス: Link先を確認
Yi Yao, Jun Wang, Yabai Hu, Lifeng Wang, Yi Zhou, Jack Chen, Xuming Gai, Zhenming Wang, Wenjun Liu, (参考訳) 手動から自動化メソッドへのソフトウェアテストの進化は品質保証(QA)の実践に大きな影響を与えました。 しかしながら、課題は実行後のフェーズ、特に結果分析とレポートで継続する。 従来の実行後検証フェーズでは、結果分析とレポート生成に手動で介入する必要があるため、非効率性と潜在的な開発サイクルの遅延につながる。 本稿では、結果分析とバグ報告プロセスを自動化することで、エンドツーエンドのテスト自動化を向上するAIを利用した検証ツールキットであるBugBlitz-AIを紹介する。 BugBlitz-AIは、人工知能の最近の進歩を活用して、手作業による結果分析とレポート生成の時間集約的なタスクを削減し、QAチームは製品品質の重要な側面をより重視することができる。 BugBlitz-AIを採用することで、組織は自動テストプラクティスを前進させ、AIをQAプロセスに統合し、より高い製品品質と市場投入時間を確保することができる。 この記事では、BugBlitz-AIのアーキテクチャの概要、関連する作業の議論、品質向上戦略の詳細、実世界のシナリオにおけるその効果を示す結果について述べる。

The evolution of software testing from manual to automated methods has significantly influenced quality assurance (QA) practices. However, challenges persist in post-execution phases, particularly in result analysis and reporting. Traditional post-execution validation phases require manual intervention for result analysis and report generation, leading to inefficiencies and potential development cycle delays. This paper introduces BugBlitz-AI, an AI-powered validation toolkit designed to enhance end-to-end test automation by automating result analysis and bug reporting processes. BugBlitz-AI leverages recent advancements in artificial intelligence to reduce the time-intensive tasks of manual result analysis and report generation, allowing QA teams to focus more on crucial aspects of product quality. By adopting BugBlitz-AI, organizations can advance automated testing practices and integrate AI into QA processes, ensuring higher product quality and faster time-to-market. The paper outlines BugBlitz-AI's architecture, discusses related work, details its quality enhancement strategies, and presents results demonstrating its effectiveness in real-world scenarios.
翻訳日:2024-06-23 14:05:12 公開日:2024-05-17
# DEMO: RTKiller -- 参照ベーススプーフィングによるGNSS RTKローバーの操作

DEMO: RTKiller -- manipulation of GNSS RTK rovers by reference base spoofing ( http://arxiv.org/abs/2406.07565v1 )

ライセンス: Link先を確認
Marco Spanghero, Panos Papadimitratos, (参考訳) グローバルナビゲーション衛星システム(GNSS)は、グローバルな位置とタイミングを提供する。 既知の基準位置(ステーション)を持つ複数の受信機は、GNSS補正の際の移動体受信機(ローバー)を支援し、消費者デバイス上でセンチメートルレベルの精度を達成する。 しかし、現在市販のデバイスで実現可能なGNSSのスプーフィングとジャミングは、パブリックな修正ネットワークの完全性と堅牢性に対する深刻な脅威である。 本稿では、基準局における位置ナビゲーション・タイミング(PNT)ソリューションの操作が、ローバーにおけるベースライン修正の損失や劣化精度の低下にどのように反映されているかを示す。 リアル・タイム・キネマティクス(RTK)の修正は価値はあるが、基本的には脆弱であり、参照局を攻撃することは、ターゲットとなる参照局に依存するすべての受信機(ローバー)に害を与える可能性がある。

Global Navigation Satellite Systems (GNSS) provide global positioning and timing. Multiple receivers with known reference positions (stations) can assist mobile receivers (rovers) in obtaining GNSS corrections and achieve centimeter-level accuracy on consumer devices. However, GNSS spoofing and jamming, nowadays achievable with off-the-shelf devices, are serious threats to the integrity and robustness of public correction networks. In this demo, we show how manipulation of the Position Navigation and Timing (PNT) solution at the reference station is reflected in the loss of baseline fix or degraded accuracy at the rover. Real Time Kinematics (RTK) corrections are valuable but fundamentally vulnerable: attacking the reference stations can harm all receivers (rovers) that rely on the targeted reference station.
翻訳日:2024-06-23 13:45:35 公開日:2024-05-17
# ファジィ関係方程式による非線形最適化問題の解法のための二相ACOアルゴリズム

A two-phase-ACO algorithm for solving nonlinear optimization problems subjected to fuzzy relational equations ( http://arxiv.org/abs/2405.14888v1 )

ライセンス: Link先を確認
Amin Ghodousian, Sara Zal, (参考訳) 本稿では,制約をファジィリレーショナル方程式(FRE)と定義した非線形最適化問題について検討する。 FREの実現可能な解集合は、しばしば非凸集合であり、FREの分解はNPハード問題であるので、従来の非線形アプローチは高い計算複雑性を伴う。 この問題の理論的側面に基づいて、FREの構造的特性、ACOによって記述された離散アントコロニー最適化アルゴリズム(英語版)、ACORによって記述された連続アントコロニー最適化アルゴリズム(英語版)の利点を生かしたアルゴリズム(FRE-ACOアルゴリズム)が提示される。 現在の方法では、ACOとACORの基礎となる考え方が組み合わされ、非凸領域に制約された非線形最適化問題を解くための効率的なアプローチが形成される。 さらに、FRE-ACOアルゴリズムは、実現可能な領域の最小限の解を最初に見つけることなく、新しい解を生成してその実現可能性を確認する。 FRE-ACOアルゴリズムは、最大値FREに関する非線形最適化問題を解くためのいくつかの関連する研究と比較されている。 その結果,提案アルゴリズムは収束率が高く,他の検討アルゴリズムと比較して関数評価の回数が少ないことがわかった。

In this paper, we investigate nonlinear optimization problems whose constraints are defined as fuzzy relational equations (FRE) with max-min composition. Since the feasible solution set of the FRE is often a non-convex set and the resolution of the FREs is an NP-hard problem, conventional nonlinear approaches may involve high computational complexity. Based on the theoretical aspects of the problem, an algorithm (called FRE-ACO algorithm) is presented which benefits from the structural properties of the FREs, the ability of discrete ant colony optimization algorithm (denoted by ACO) to tackle combinatorial problems, and that of continuous ant colony optimization algorithm (denoted by ACOR) to solve continuous optimization problems. In the current method, the fundamental ideas underlying ACO and ACOR are combined and form an efficient approach to solve the nonlinear optimization problems constrained with such non-convex regions. Moreover, FRE-ACO algorithm preserves the feasibility of new generated solutions without having to initially find the minimal solutions of the feasible region or check the feasibility after generating the new solutions. FRE-ACO algorithm has been compared with some related works proposed for solving nonlinear optimization problems with respect to maxmin FREs. The obtained results demonstrate that the proposed algorithm has a higher convergence rate and requires a less number of function evaluations compared to other considered algorithms.
翻訳日:2024-06-02 14:47:20 公開日:2024-05-17
# 新型コロナウイルスの予測ハブケース予測モデルの公正性検証

Auditing the Fairness of COVID-19 Forecast Hub Case Prediction Models ( http://arxiv.org/abs/2405.14891v1 )

ライセンス: Link先を確認
Saad Mohammad Abrar, Naman Awasthi, Daniel Smolyak, Vanessa Frias-Martinez, (参考訳) 50以上の独立した研究グループによる新型コロナウイルス予測のレポジトリであるCOVID-19 Forecast Hubは、公式のCOVID-19コミュニケーションのためにCDC(疾病予防管理センター)によって使用されている。 このように、Forecast Hubは透明な意思決定を促進するために重要な中央集権的なリソースである。 しかしながら、予測精度にのみ焦点をあてることで、Forecast Hubは、提案されたモデルが、人種、民族、都市化レベルを含む新型コロナウイルスのパンデミックにおいて役割を担っていることが知られている社会的決定要因間で類似したパフォーマンスを持つかどうかを評価することができない。 本稿では,Forecast Hubモデルモデル予測の総合的公正性分析を行い,少数民族・少数民族の他,都市化の少ない地域においても高い予測誤差を伴って,統計的に有意な多様な予測性能を示す。 今回の取り組みは、新型コロナウイルス(COVID-19)のモデラーやCDC(疾病予防管理センター)が、公正度指標を正確性とともに報告し、特定の社会的グループや状況におけるモデルによる潜在的な害を反映するよう促すことを願っている。

The COVID-19 Forecast Hub, a repository of COVID-19 forecasts from over 50 independent research groups, is used by the Centers for Disease Control and Prevention (CDC) for their official COVID-19 communications. As such, the Forecast Hub is a critical centralized resource to promote transparent decision making. Nevertheless, by focusing exclusively on prediction accuracy, the Forecast Hub fails to evaluate whether the proposed models have similar performance across social determinants that have been known to play a role in the COVID-19 pandemic including race, ethnicity and urbanization level. In this paper, we carry out a comprehensive fairness analysis of the Forecast Hub model predictions and we show statistically significant diverse predictive performance across social determinants, with minority racial and ethnic groups as well as less urbanized areas often associated with higher prediction errors. We hope this work will encourage COVID-19 modelers and the CDC to report fairness metrics together with accuracy, and to reflect on the potential harms of the models on specific social groups and contexts.
翻訳日:2024-06-02 14:47:20 公開日:2024-05-17
# 間隔値ファジィソフトセットのエネルギーに基づく意思決定アルゴリズム

Decision-making algorithm based on the energy of interval-valued fuzzy soft sets ( http://arxiv.org/abs/2405.15801v1 )

ライセンス: Link先を確認
Ljubica Djurović, Maja Laković, Nenad Stojanović, (参考訳) 本研究では, 間隔値のファジィソフトセットと間隔値のファジィソフトセットを組み合わせることで得られる, 間隔値のファジィソフトセットの特性について検討を続ける。 我々は、間隔値のファジィなソフトセットと悲観的で楽観的なエネルギの概念を導入し、効率的な意思決定アルゴリズムの構築を可能にした。 本稿では,不確実性を伴う問題に対して,導入アルゴリズムがいかにうまく適用されているかを示す。 さらに,提案手法と類似や関連する問題を扱う他の手法との比較を行った。

In our work, we continue to explore the properties of interval-valued fuzzy soft sets, which are obtained by combining interval-valued fuzzy sets and soft sets. We introduce the concept of energy of an interval-valued fuzzy soft set, as well as pessimistic and optimistic energy, enabling us to construct an effective decision-making algorithm. Through examples, the paper demonstrates how the introduced algorithm is successfully applied to problems involving uncertainty. Additionally, we compare the introduced method with other methods dealing with similar or related issues.
翻訳日:2024-06-02 14:39:48 公開日:2024-05-17
# ファウンデーションモデルにおけるオープンネスの枠組みに向けて--人工知能におけるオープンネスに関するコロンビア・コンベンションから

Towards a Framework for Openness in Foundation Models: Proceedings from the Columbia Convening on Openness in Artificial Intelligence ( http://arxiv.org/abs/2405.15802v1 )

ライセンス: Link先を確認
Adrien Basdevant, Camille François, Victor Storchan, Kevin Bankston, Ayah Bdeir, Brian Behlendorf, Merouane Debbah, Sayash Kapoor, Yann LeCun, Mark Surman, Helen King-Turvey, Nathan Lambert, Stefano Maffulli, Nik Marda, Govind Shivkumar, Justine Tunney, (参考訳) 過去1年間、オープンソース基盤モデルの利点とリスクについて、しっかりと議論されてきた。 しかし、この議論は、しばしば高いレベルの一般性、あるいは特定の技術的属性に限定して行われた。 その理由のひとつは、従来のソフトウェア開発との大きな違いを考えれば、基礎モデルのためのオープンソースの定義が難しいことが証明されているからである。 基礎モデルを含むAIシステムのオープン化に関する,より実践的でニュアンスな決定を通知するために,本論文では,AIスタック全体にわたるオープン化に対応するためのフレームワークを提案する。 このトピックに関する以前の研究を要約し、オープン性追求のさまざまな潜在的理由を分析し、モデルとシステムレベルで、AIスタックのさまざまな部分でオープン性がどのように変化するのかを概説する。 そうすることで、AIのオープン性に関する曖昧で厳密な理解を深め、AIのオープン性と安全性の定義に関するさらなる作業を可能にする、共通の記述的フレームワークを提供することを期待している。

Over the past year, there has been a robust debate about the benefits and risks of open sourcing foundation models. However, this discussion has often taken place at a high level of generality or with a narrow focus on specific technical attributes. In part, this is because defining open source for foundation models has proven tricky, given its significant differences from traditional software development. In order to inform more practical and nuanced decisions about opening AI systems, including foundation models, this paper presents a framework for grappling with openness across the AI stack. It summarizes previous work on this topic, analyzes the various potential reasons to pursue openness, and outlines how openness varies in different parts of the AI stack, both at the model and at the system level. In doing so, its authors hope to provide a common descriptive framework to deepen a nuanced and rigorous understanding of openness in AI and enable further work around definitions of openness and safety in AI.
翻訳日:2024-06-02 14:39:48 公開日:2024-05-17
# 脳-コンピュータインタフェースの深部表現学習技術と勧告

Review of Deep Representation Learning Techniques for Brain-Computer Interfaces and Recommendations ( http://arxiv.org/abs/2405.19345v1 )

ライセンス: Link先を確認
Pierre Guetschel, Sara Ahmadi, Michael Tangermann, (参考訳) 脳-コンピュータインタフェース(BCI)の分野では、脳波(EEG)信号の深層学習技術を活用する可能性に大きな関心が寄せられている。 本稿では,BCI復号のための深層表現学習技術を用いて,論文の集合から経験的知見を合成し,現状の総合的分析を行う。 各項目は,(1)深層表現学習技術,(2)活用の動機づけ,(3)学習表現の特徴付けに採用されるアプローチの3つの基準に基づいて精査された。 81記事のうち,オートエンコーダを用いた31記事の優位性を明らかにした。 自己教師型学習(SSL)技術を用いた13の研究では,2022年以降に10の論文が出版された。 しかしながら、現時点では、これらがBCIコミュニティによって拾われる標準基盤モデルに繋がることはなかった。 同様に、学習した表現を内観する研究はごくわずかである。 表現学習技術を用いたほとんどの研究におけるモチベーションは、伝達学習の課題を解決することであるが、ロバスト性や不変性を学習したり、アルゴリズム的なブリッジとして学習したり、最終的にデータの構造を明らかにするといった、より具体的なモチベーションも見出した。 これらの課題に効果的に取り組むための基礎モデルの可能性を考えると、我々はSSL技術を用いて脳波信号復号化に特化した基礎モデルの発展に引き続き注力することを提唱する。 また、そのような基盤モデルの開発と継続的な改善を促進するために、特別なベンチマークとデータセットを確立することの義務も強調する。

In the field of brain-computer interfaces (BCIs), the potential for leveraging deep learning techniques for representing electroencephalogram (EEG) signals has gained substantial interest. This review synthesizes empirical findings from a collection of articles using deep representation learning techniques for BCI decoding, to provide a comprehensive analysis of the current state-of-the-art. Each article was scrutinized based on three criteria: (1) the deep representation learning technique employed, (2) the underlying motivation for its utilization, and (3) the approaches adopted for characterizing the learned representations. Among the 81 articles finally reviewed in depth, our analysis reveals a predominance of 31 articles using autoencoders. We identified 13 studies employing self-supervised learning (SSL) techniques, among which ten were published in 2022 or later, attesting to the relative youth of the field. However, at the time being, none of these have led to standard foundation models that are picked up by the BCI community. Likewise, only a few studies have introspected their learned representations. We observed that the motivation in most studies for using representation learning techniques is for solving transfer learning tasks, but we also found more specific motivations such as to learn robustness or invariances, as an algorithmic bridge, or finally to uncover the structure of the data. Given the potential of foundation models to effectively tackle these challenges, we advocate for a continued dedication to the advancement of foundation models specifically designed for EEG signal decoding by using SSL techniques. We also underline the imperative of establishing specialized benchmarks and datasets to facilitate the development and continuous improvement of such foundation models.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-17
# 静止状態脳波信号を用いたクロスオブジェクト脳波モータ画像分類のための主観適応移動学習

Subject-Adaptive Transfer Learning Using Resting State EEG Signals for Cross-Subject EEG Motor Imagery Classification ( http://arxiv.org/abs/2405.19346v1 )

ライセンス: Link先を確認
Sion An, Myeongkyun Kang, Soopil Kim, Philip Chikontwe, Li Shen, Sang Hyun Park, (参考訳) 脳波 (EEG) 運動画像分類 (MI) は、個人間の信号のばらつき、すなわち物体間の変動により、基本的な課題であるが難しい課題である。 以前のアプローチでは、トレーニング中の対象者からのタスク固有(TS)脳波信号を用いてこれを緩和しようとしていた。 しかし、TS EEG信号を記録するには、様々な分野での時間と適用性を制限する必要がある。 対照的に、安静状態(RS)脳波信号は、リッチな主題情報による取得が容易であるため、有効な代替手段である。 本稿では、RS EEG信号を用いて、未知の対象データにモデルを適用する新しい対象適応型トランスファー学習戦略を提案する。 具体的には、抽出した特徴をタスク依存的特徴と主観依存的特徴に分解し、RS脳波信号を校正し、課題情報を取得しながら対象特性を保存する。 次に、キャリブレーションされた信号を使用して対象対象にモデルを適応させ、対象対象対象のTS EEG信号の処理をシミュレートする。 提案手法は,3つの公開ベンチマーク上での最先端の精度を実現し,クロスオブジェクトEEG MI分類における本手法の有効性を実証する。 本研究は,脳-コンピュータインタフェースの実用化にRS脳波信号を活用する可能性を明らかにするものである。

Electroencephalography (EEG) motor imagery (MI) classification is a fundamental, yet challenging task due to the variation of signals between individuals i.e., inter-subject variability. Previous approaches try to mitigate this using task-specific (TS) EEG signals from the target subject in training. However, recording TS EEG signals requires time and limits its applicability in various fields. In contrast, resting state (RS) EEG signals are a viable alternative due to ease of acquisition with rich subject information. In this paper, we propose a novel subject-adaptive transfer learning strategy that utilizes RS EEG signals to adapt models on unseen subject data. Specifically, we disentangle extracted features into task- and subject-dependent features and use them to calibrate RS EEG signals for obtaining task information while preserving subject characteristics. The calibrated signals are then used to adapt the model to the target subject, enabling the model to simulate processing TS EEG signals of the target subject. The proposed method achieves state-of-the-art accuracy on three public benchmarks, demonstrating the effectiveness of our method in cross-subject EEG MI classification. Our findings highlight the potential of leveraging RS EEG signals to advance practical brain-computer interface systems.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-17
# LLM支援ユーザエージェントシミュレーションによる対話状態追跡モデルの強化

Enhancing Dialogue State Tracking Models through LLM-backed User-Agents Simulation ( http://arxiv.org/abs/2405.13037v1 )

ライセンス: Link先を確認
Cheng Niu, Xingguang Wang, Xuxin Cheng, Juntong Song, Tong Zhang, (参考訳) 対話状態追跡(DST)は,会話中の対話状態を監視し,タスク指向対話システムの開発において重要な役割を果たすように設計されている。 しかし、DSTタスクの注釈付きデータを取得するのは、通常、コストがかかる作業である。 本稿では,対話収集とアノテーションコストを低減するために,LLMを用いて対話データを生成することに焦点を当てる。 具体的には、GPT-4はユーザとエージェントのインタラクションをシミュレートするために使用され、DSTラベルに注釈付けされた数千の対話を生成する。 そして、生成されたデータとDST予測のための実データとに基づいてLLaMA2の2段階微調整を行う。 2つの公開DSTベンチマーク実験の結果、生成した対話データにより、本モデルは実データのみに基づいてトレーニングされたベースラインよりも優れた性能を示すことが示された。 さらに,本手法は現実シナリオの動的な要求に適応し,新たなドメインでの対話を迅速に生成する。 任意のドメインの対話セグメントを対応する生成されたセグメントに置き換えた後、モデルは実際のデータでトレーニングされたモデルと同等のパフォーマンスを達成する。

Dialogue State Tracking (DST) is designed to monitor the evolving dialogue state in the conversations and plays a pivotal role in developing task-oriented dialogue systems. However, obtaining the annotated data for the DST task is usually a costly endeavor. In this paper, we focus on employing LLMs to generate dialogue data to reduce dialogue collection and annotation costs. Specifically, GPT-4 is used to simulate the user and agent interaction, generating thousands of dialogues annotated with DST labels. Then a two-stage fine-tuning on LLaMA 2 is performed on the generated data and the real data for the DST prediction. Experimental results on two public DST benchmarks show that with the generated dialogue data, our model performs better than the baseline trained solely on real data. In addition, our approach is also capable of adapting to the dynamic demands in real-world scenarios, generating dialogues in new domains swiftly. After replacing dialogue segments in any domain with the corresponding generated ones, the model achieves comparable performance to the model trained on real data.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-17
# ドメインエキスパートとAIの協調のための説明モデルステアリングシステム

An Explanatory Model Steering System for Collaboration between Domain Experts and AI ( http://arxiv.org/abs/2405.13038v1 )

ライセンス: Link先を確認
Aditya Bhattacharya, Simone Stumpf, Katrien Verbert, (参考訳) 医療などの高リスク領域における人工知能(AI)システムの採用の増加に伴い、ドメインの専門家とAIの効果的なコラボレーションが不可欠である。 ドメインエキスパートとAIシステムとの効果的な協調を促進するために,ドメインエキスパートがドメイン知識を用いて予測モデルを操れるような説明モデルステアリングシステムを導入する。 このシステムには、さまざまなタイプのデータ中心とモデル中心の説明を組み合わせる説明ダッシュボードが含まれており、手動および自動データ構成アプローチを通じて予測モデルを操縦することができる。 ドメインの専門家は、基礎となるトレーニングデータの設定と予測モデルを精査するために、事前の知識を適用できる。 さらに、我々のモデルステアリングシステムは、広範囲な3つのユーザー研究を通じて、174人の医療専門家によるヘルスケアに焦点を当てたシナリオで評価されてきた。 我々の研究は、モデルステアリングにおけるドメインエキスパートの関与の重要性を強調し、最終的には人間とAIのコラボレーションの改善につながった。

With the increasing adoption of Artificial Intelligence (AI) systems in high-stake domains, such as healthcare, effective collaboration between domain experts and AI is imperative. To facilitate effective collaboration between domain experts and AI systems, we introduce an Explanatory Model Steering system that allows domain experts to steer prediction models using their domain knowledge. The system includes an explanation dashboard that combines different types of data-centric and model-centric explanations and allows prediction models to be steered through manual and automated data configuration approaches. It allows domain experts to apply their prior knowledge for configuring the underlying training data and refining prediction models. Additionally, our model steering system has been evaluated for a healthcare-focused scenario with 174 healthcare experts through three extensive user studies. Our findings highlight the importance of involving domain experts during model steering, ultimately leading to improved human-AI collaboration.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-17
# LLMの外科的特徴空間分解 : なぜ, いつ, どのように?

Surgical Feature-Space Decomposition of LLMs: Why, When and How? ( http://arxiv.org/abs/2405.13039v1 )

ライセンス: Link先を確認
Arnav Chavan, Nahush Lele, Deepak Gupta, (参考訳) 重みと特徴空間の低ランク近似は、一般化の改善や推論の遅延の低減の観点からも、ディープラーニングモデルの性能を向上させることができる。 しかし、これらの近似は大きな言語モデル(LLM)に有用である。 本研究では,変圧器を用いたLLMにおいて,重量と特徴空間の分解の有効性を実証的に検討する。 本研究では, 圧縮と言語モデリング性能のトレードオフに関する重要な知見を提供するだけでなく, LLMのコモンセンス推論性能を高めることも示している。 我々の経験的分析は、本質的に低ランク構造を示す特定のネットワークセグメントを特定する。 さらに,モデルバイアスに対する低ランク近似の影響について検討する。 全体としては,LLMを最適化する新たな視点を提供し,性能向上のためのツールとしてだけでなく,モデル内のバイアスを補正する手段としても,低ランク近似を提示する。 私たちのコードは \href{https://github.com/nyunAI/SFSD-LLM}{GitHub} で利用可能です。

Low-rank approximations, of the weight and feature space can enhance the performance of deep learning models, whether in terms of improving generalization or reducing the latency of inference. However, there is no clear consensus yet on \emph{how}, \emph{when} and \emph{why} these approximations are helpful for large language models (LLMs). In this work, we empirically study the efficacy of weight and feature space decomposition in transformer-based LLMs. We demonstrate that surgical decomposition not only provides critical insights into the trade-off between compression and language modelling performance, but also sometimes enhances commonsense reasoning performance of LLMs. Our empirical analysis identifies specific network segments that intrinsically exhibit a low-rank structure. Furthermore, we extend our investigation to the implications of low-rank approximations on model bias. Overall, our findings offer a novel perspective on optimizing LLMs, presenting the low-rank approximation not only as a tool for performance enhancements, but also as a means to potentially rectify biases within these models. Our code is available at \href{https://github.com/nyunAI/SFSD-LLM}{GitHub}.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-17
# 大規模言語モデルにおける政治的バイアスの評価

Assessing Political Bias in Large Language Models ( http://arxiv.org/abs/2405.13041v1 )

ライセンス: Link先を確認
Luca Rettenberger, Markus Reischl, Mark Schutera, (参考訳) 大規模言語モデル(LLM)における社会的バイアスの評価は、人工知能(AI)倫理とその影響を取り巻く現代の議論において重要な関心事となっている。 特に、政治的偏見を認識し、考慮することは、可能性や行動についてより深く理解し、望ましくない言明を防ぐために、実践的な応用にとって重要である。 欧州議会の次期選挙はLLMの影響を受けないため、ドイツの観点からは、欧州連合(EU)内の政治問題に関する現在最も人気のあるオープンソースモデルのバイアスを評価します。 そのために、ドイツで使われている投票助言書である「ウォール・オ・マット」を用いて、どの政党がそれぞれの LLM に最も適しているかを決定する。 Llama3-70Bのような大型モデルは、GR\"UNEやVoltのような左派政党とより緊密に連携する傾向にある一方で、より小さなモデルは、特に英語では中立であることが多い。 このことは、LLMのニュアンスな行動と、彼らの政治的スタンスを形成する上での言語の重要性を強調している。 現代の機械学習手法の力を生かしたアプリケーションの完全性と公平性を保護するため,LLMにおける社会的偏見の厳密な評価と対処の重要性を強調した。

The assessment of societal biases within Large Language Models (LLMs) has emerged as a critical concern in the contemporary discourse surrounding Artificial Intelligence (AI) ethics and their impact. Especially, recognizing and considering political biases is important for practical applications to gain a deeper understanding of the possibilities and behaviors and to prevent unwanted statements. As the upcoming elections of the European Parliament will not remain unaffected by LLMs, we evaluate the bias of the current most popular open-source models concerning political issues within the European Union (EU) from a German perspective. To do so, we use the "Wahl-O-Mat", a voting advice application used in Germany, to determine which political party is the most aligned for the respective LLM. We show that larger models, such as Llama3-70B, tend to align more closely with left-leaning political parties like GR\"UNE and Volt, while smaller models often remain neutral, particularly in English. This highlights the nuanced behavior of LLMs and the importance of language in shaping their political stances. Our findings underscore the importance of rigorously assessing and addressing societal bias in LLMs to safeguard the integrity and fairness of applications that employ the power of modern machine learning methods.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-17
# StoryVerse: ナラティブプランニングによるLCMに基づくキャラクタシミュレーションと動的プロットの共著者を目指して

StoryVerse: Towards Co-authoring Dynamic Plot with LLM-based Character Simulation via Narrative Planning ( http://arxiv.org/abs/2405.13042v1 )

ライセンス: Link先を確認
Yi Wang, Qian Zhou, David Ledo, (参考訳) ゲームの自動プロット生成は、プレイヤーの行動に適応するリッチで没入的な物語体験を提供することにより、プレイヤーの体験を向上させる。 伝統的なアプローチでは、広範な知識工学的な作業を必要とすることにより、生成されたプロットの規模と複雑さを制限する象徴的な物語計画手法が採用されている。 近年の進歩では、Large Language Models (LLM) を使用して仮想キャラクタの振る舞いを駆動し、プロットが文字と環境間の相互作用から現れるようになっている。 しかし、このような分散型プロット生成の創発的な性質は、著者がプロットの進行を直接的に進行させることを困難にしている。 本稿では,著者の著作意図と LLM によるキャラクターシミュレーションからの創発的行動の仲介を行うプロット作成ワークフローを提案する。 著者らは、ゲームの世界状態に基づいて、LLMベースの物語計画プロセスを通じて、後に具体的なキャラクターアクションシーケンスに変換されるハイレベルなプロットのアウトラインを定義している。 このプロセスは「生きた物語」を作り、様々なゲーム世界の状態に動的に適応し、著者、キャラクターシミュレーション、プレイヤーが共同で物語を作る。 本稿では,このプロット作成ワークフローを実証するための概念実証システムとしてStoryVerseを提案する。 異なるストーリーやゲーム環境の例を例に、このアプローチの汎用性を紹介します。

Automated plot generation for games enhances the player's experience by providing rich and immersive narrative experience that adapts to the player's actions. Traditional approaches adopt a symbolic narrative planning method which limits the scale and complexity of the generated plot by requiring extensive knowledge engineering work. Recent advancements use Large Language Models (LLMs) to drive the behavior of virtual characters, allowing plots to emerge from interactions between characters and their environments. However, the emergent nature of such decentralized plot generation makes it difficult for authors to direct plot progression. We propose a novel plot creation workflow that mediates between a writer's authorial intent and the emergent behaviors from LLM-driven character simulation, through a novel authorial structure called "abstract acts". The writers define high-level plot outlines that are later transformed into concrete character action sequences via an LLM-based narrative planning process, based on the game world state. The process creates "living stories" that dynamically adapt to various game world states, resulting in narratives co-created by the author, character simulation, and player. We present StoryVerse as a proof-of-concept system to demonstrate this plot creation workflow. We showcase the versatility of our approach with examples in different stories and game environments.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-17
# エンドツーエンドスパース辞書学習による機能的重要な特徴の同定

Identifying Functionally Important Features with End-to-End Sparse Dictionary Learning ( http://arxiv.org/abs/2405.12241v1 )

ライセンス: Link先を確認
Dan Braun, Jordan Taylor, Nicholas Goldowsky-Dill, Lee Sharkey, (参考訳) ニューラルネットワークによって学習された特徴を特定することは、機械的解釈可能性における中核的な課題である。 ネットワークの内部アクティベーションを再構築するスパースオートエンコーダ(SAE)は、これらの特徴を識別するために使用される。 しかし、SAEはネットワークの計算構造よりもデータセットの構造についてより深く学ぶことができる。 したがって、これらの辞書にある方向がネットワークにとって機能的に重要であると考えるのは間接的な理由のみである。 本研究では,SAE アクティベーションを挿入したモデルの出力分布とモデルとのKL ばらつきを最小限に抑えることで,学習する特徴が機能的に重要であることを保証し,SAE を訓練するエンド・ツー・エンド (e2e) スパース辞書学習を提案する。 標準的なSAEと比較して、e2e SAEはParetoの改善を提供する: ネットワーク性能の向上、機能全体の削減、データポイント当たりのアクティブ機能の同時実行の削減など。 我々は,e2e SAE特徴と標準SAE特徴との幾何学的および定性的差異について検討する。 E2e辞書学習は、ネットワークの振る舞いを簡潔かつ正確に説明できる手法に近づきます。 e2e SAEをトレーニングし、https://github.com/ApolloResearch/e2e_saeで分析を再現するためのライブラリをリリースします。

Identifying the features learned by neural networks is a core challenge in mechanistic interpretability. Sparse autoencoders (SAEs), which learn a sparse, overcomplete dictionary that reconstructs a network's internal activations, have been used to identify these features. However, SAEs may learn more about the structure of the datatset than the computational structure of the network. There is therefore only indirect reason to believe that the directions found in these dictionaries are functionally important to the network. We propose end-to-end (e2e) sparse dictionary learning, a method for training SAEs that ensures the features learned are functionally important by minimizing the KL divergence between the output distributions of the original model and the model with SAE activations inserted. Compared to standard SAEs, e2e SAEs offer a Pareto improvement: They explain more network performance, require fewer total features, and require fewer simultaneously active features per datapoint, all with no cost to interpretability. We explore geometric and qualitative differences between e2e SAE features and standard SAE features. E2e dictionary learning brings us closer to methods that can explain network behavior concisely and accurately. We release our library for training e2e SAEs and reproducing our analysis at https://github.com/ApolloResearch/e2e_sae
翻訳日:2024-05-22 15:17:08 公開日:2024-05-17
# マウス新生児超音波発声解析の強化:異なる数学的モデルの開発と評価および応用

Enhancing the analysis of murine neonatal ultrasonic vocalizations: Development, evaluation, and application of different mathematical models ( http://arxiv.org/abs/2405.12957v1 )

ライセンス: Link先を確認
Rudolf Herdt, Louisa Kinzel, Johann Georg Maaß, Marvin Walther, Henning Fröhlich, Tim Schubert, Peter Maass, Christian Patrick Schaaf, (参考訳) ネズミは、社会コミュニケーションに幅広い超音波発声(USV)を使用する。 これらの発声は、動物の感情状態、社会的相互作用、発達段階に関する貴重な洞察を与えるため、様々なディープラーニングアプローチは、USVの量的(検出)と質的(分類)の両方を自動化することを目的としている。 本稿では,USV分類のための異なるタイプのニューラルネットワークを初めて体系的に評価する。 我々は、カスタマイズされた完全に接続されたネットワークと畳み込みニューラルネットワーク、異なる残留ニューラルネットワーク(ResNet)、効率的なネットワーク、ビジョントランスフォーマー(ViT)など、さまざまなフィードフォワードネットワークを評価した。 洗練されたエントロピーベースの検出アルゴリズム(94.9%のリコールと99.3%の精度を達成する)を備え、最高のアーキテクチャ(86.79%の精度を達成する)は信頼性の高いUSVデータセットを解析できる完全自動化パイプラインに統合された。 さらに、ユーザは研究ニーズに応じて、個別の最小精度閾値を指定できる。 この半自動セットアップでは、パイプラインは擬似確率の高い呼び出しを選択的に分類し、残りは手動で検査する。 本研究は新生児USVにのみ焦点をあてる。 現在進行中の表現型研究の一環として、我々のパイプラインは自閉症様の行動を持つマウスが生み出すUSVの重要な違いを特定するための貴重なツールであることが証明された。

Rodents employ a broad spectrum of ultrasonic vocalizations (USVs) for social communication. As these vocalizations offer valuable insights into affective states, social interactions, and developmental stages of animals, various deep learning approaches have aimed to automate both the quantitative (detection) and qualitative (classification) analysis of USVs. Here, we present the first systematic evaluation of different types of neural networks for USV classification. We assessed various feedforward networks, including a custom-built, fully-connected network and convolutional neural network, different residual neural networks (ResNets), an EfficientNet, and a Vision Transformer (ViT). Paired with a refined, entropy-based detection algorithm (achieving recall of 94.9% and precision of 99.3%), the best architecture (achieving 86.79% accuracy) was integrated into a fully automated pipeline capable of analyzing extensive USV datasets with high reliability. Additionally, users can specify an individual minimum accuracy threshold based on their research needs. In this semi-automated setup, the pipeline selectively classifies calls with high pseudo-probability, leaving the rest for manual inspection. Our study focuses exclusively on neonatal USVs. As part of an ongoing phenotyping study, our pipeline has proven to be a valuable tool for identifying key differences in USVs produced by mice with autism-like behaviors.
翻訳日:2024-05-22 12:30:44 公開日:2024-05-17
# アウト・オブ・ディストリビューションの一般化に必要なデータ生成プロセスのモデリング

Modeling the Data-Generating Process is Necessary for Out-of-Distribution Generalization ( http://arxiv.org/abs/2206.07837v4 )

ライセンス: Link先を確認
Jivat Neet Kaur, Emre Kiciman, Amit Sharma, (参考訳) 領域一般化(DG)に関する最近の実証研究は、いくつかの分布シフトでよく動作するDGアルゴリズムが他では失敗し、最先端のDGアルゴリズムがすべてのシフトで一貫してうまく機能しないことを示した。 さらに,実世界のデータは属性の異なる複数の分布シフトを持つことが多いため,マルチ属性分布シフトデータセットを導入し,既存のDGアルゴリズムの精度がさらに低下することを見出した。 これらの結果を説明するために、正準因果グラフを用いて多属性シフトの下での一般化の形式的特徴付けを提供する。 突発性属性と分類ラベルの関係に基づき,共通分布シフトを特徴付ける正準因果グラフの実現と,各シフトが観測変数に対して異なる独立性制約を持つことを示す。 その結果、1つの固定制約に基づく任意のアルゴリズムは、すべてのシフトでうまく動作せず、DGアルゴリズムの混合実験結果の理論的証拠を提供する。 この知見に基づいて、データ生成プロセスに関する知識を用いて正規化のための正しい独立性制約を適応的に識別し、適用するアルゴリズムであるCausally Adaptive Constraint Minimization (CACM)を開発した。 完全合成、MNIST、小さなNORB、ウォーターバードデータセットの2値および複数値の属性とラベルをカバーし、適応的なデータセット依存の制約が未確認領域において最も正確であることを示した。 本結果は,データ生成過程に固有の因果関係をモデル化することが重要であることを示す。

Recent empirical studies on domain generalization (DG) have shown that DG algorithms that perform well on some distribution shifts fail on others, and no state-of-the-art DG algorithm performs consistently well on all shifts. Moreover, real-world data often has multiple distribution shifts over different attributes; hence we introduce multi-attribute distribution shift datasets and find that the accuracy of existing DG algorithms falls even further. To explain these results, we provide a formal characterization of generalization under multi-attribute shifts using a canonical causal graph. Based on the relationship between spurious attributes and the classification label, we obtain realizations of the canonical causal graph that characterize common distribution shifts and show that each shift entails different independence constraints over observed variables. As a result, we prove that any algorithm based on a single, fixed constraint cannot work well across all shifts, providing theoretical evidence for mixed empirical results on DG algorithms. Based on this insight, we develop Causally Adaptive Constraint Minimization (CACM), an algorithm that uses knowledge about the data-generating process to adaptively identify and apply the correct independence constraints for regularization. Results on fully synthetic, MNIST, small NORB, and Waterbirds datasets, covering binary and multi-valued attributes and labels, show that adaptive dataset-dependent constraints lead to the highest accuracy on unseen domains whereas incorrect constraints fail to do so. Our results demonstrate the importance of modeling the causal relationships inherent in the data-generating process.
翻訳日:2024-05-22 01:31:04 公開日:2024-05-17
# 量子力学の非線形拡張の解法モデル

A Solvable Model of a Nonlinear extension of Quantum Mechanics ( http://arxiv.org/abs/2209.09016v2 )

ライセンス: Link先を確認
Alan Chodos, Fred Cooper, (参考訳) 我々は、通常の線形量子力学問題のハミルトニアンの固有値と固有関数の観点から正確に解ける性質を持つ特定の非線形量子力学の一般化を導入する。 この単純な例は、量子計測理論に関する問題を解くために実施された量子力学の非線形一般化を解釈する問題のいくつかを解明することを期待している。

We introduce a particular nonlinear generalization of quantum mechanics which has the property that it is exactly solvable in terms of the eigenvalues and eigenfunctions of the Hamiltonian of the usual linear quantum mechanics problem. We hope that this simple example will elucidate some of the issues of interpreting nonlinear generalization of quantum mechanics that have been put forth to resolve questions about quantum measurement theory.
翻訳日:2024-05-22 01:20:28 公開日:2024-05-17
# 高解像度パンクロマトグラフィー画像による近代中国の工業成長の追跡--逐次的畳み込み的アプローチ

Tracking the industrial growth of modern China with high-resolution panchromatic imagery: A sequential convolutional approach ( http://arxiv.org/abs/2301.09620v3 )

ライセンス: Link先を確認
Ethan Brewer, Zhonghui Lv, Dan Runfola, (参考訳) アクセシブルな地域での開発データを得るのが不十分、あるいは困難であるため、リモートセンシングデータは、利害関係者が経済成長に関する情報を収集する上で重要なツールである。 現在まで、深層学習を利用して個別のサイトレベルでの工業的成長を推定する研究は行われていない。 本研究では,高解像度のパンクロマトグラフィー画像を用いて,多層コンピュータビジョンフレームワークを用いて,中華人民共和国の工業地419箇所の時間的発達を推定する。 本研究では,(1)Mask R-CNNセグメンテーションアルゴリズムを用いて推定した構造面積カバレッジと,(2)可視・赤外放射率を直接計算するVIIRS (Visible Infrared Imaging Radiometer Suite) の2つの手法を提案する。 これらの手法から生成されたラベルは比較的評価され、テストされる。 19年間にわたる2,07850cmの解像度画像のデータセットから、工業開発における2次元の次元を、高解像度の昼間画像を含む高解像度画像を用いて推定できることが示唆された。 (a)産業開発総平方メートル(平均誤差0.021$\textrm{km}^2$)及び (b)光の放射率(平均誤差 9.8$\mathrm {\frac{nW}{cm^{2}sr}}$) この手法のトレンド分析により,Mask R-CNN標識CNN-LSTM軌道真理測定から得られた推定値が最もよく明らかになった。 Mask R-CNNは、最も古い画像から最新の画像までの全てのサイトにおいて、平均的な変化は4,084ドル\textrm{m}^2$と見積もっている。

Due to insufficient or difficult to obtain data on development in inaccessible regions, remote sensing data is an important tool for interested stakeholders to collect information on economic growth. To date, no studies have utilized deep learning to estimate industrial growth at the level of individual sites. In this study, we harness high-resolution panchromatic imagery to estimate development over time at 419 industrial sites in the People's Republic of China using a multi-tier computer vision framework. We present two methods for approximating development: (1) structural area coverage estimated through a Mask R-CNN segmentation algorithm, and (2) imputing development directly with visible & infrared radiance from the Visible Infrared Imaging Radiometer Suite (VIIRS). Labels generated from these methods are comparatively evaluated and tested. On a dataset of 2,078 50 cm resolution images spanning 19 years, the results indicate that two dimensions of industrial development can be estimated using high-resolution daytime imagery, including (a) the total square meters of industrial development (average error of 0.021 $\textrm{km}^2$), and (b) the radiance of lights (average error of 9.8 $\mathrm{\frac{nW}{cm^{2}sr}}$). Trend analysis of the techniques reveal estimates from a Mask R-CNN-labeled CNN-LSTM track ground truth measurements most closely. The Mask R-CNN estimates positive growth at every site from the oldest image to the most recent, with an average change of 4,084 $\textrm{m}^2$.
翻訳日:2024-05-22 01:10:43 公開日:2024-05-17
# 自己教師付き学習モデルにおける表現信頼性の定量化

Quantifying Representation Reliability in Self-Supervised Learning Models ( http://arxiv.org/abs/2306.00206v2 )

ライセンス: Link先を確認
Young-Jin Park, Hao Wang, Shervin Ardeshir, Navid Azizan, (参考訳) 自己教師付き学習モデルは、データから汎用的な表現を抽出する。 これらの表現の信頼性の定量化は、多くのダウンストリームモデルは、自身のタスクの入力としてそれらに依存しているため、非常に重要です。 この目的のために、表現信頼性の形式的定義を導入する:与えられたテストポイントの表現は、その表現の上に構築された下流モデルが、そのテストポイントの正確な予測を一貫して生成できる場合、信頼できると考えられる。 しかし、下流のデータにアクセスして表現の信頼性を定量化することは、しばしばプライバシー上の懸念のために不可能または制限される。 本稿では,下流タスクを優先課題と知らずに表現信頼性を推定するアンサンブルに基づく手法を提案する。 提案手法は,異なる事前学習された表現空間間の近傍の整合性の概念に基づいている。 鍵となる洞察は、これらの表現空間を比較前に整列するアンカーとして、隣り合う共通点を見つけることである。 提案手法は,高い相関関係で表現信頼性を効果的に把握し,ベースライン法と比較して頑健かつ良好な性能を実現することを,包括的数値実験により実証する。

Self-supervised learning models extract general-purpose representations from data. Quantifying the reliability of these representations is crucial, as many downstream models rely on them as input for their own tasks. To this end, we introduce a formal definition of representation reliability: the representation for a given test point is considered to be reliable if the downstream models built on top of that representation can consistently generate accurate predictions for that test point. However, accessing downstream data to quantify the representation reliability is often infeasible or restricted due to privacy concerns. We propose an ensemble-based method for estimating the representation reliability without knowing the downstream tasks a priori. Our method is based on the concept of neighborhood consistency across distinct pre-trained representation spaces. The key insight is to find shared neighboring points as anchors to align these representation spaces before comparing them. We demonstrate through comprehensive numerical experiments that our method effectively captures the representation reliability with a high degree of correlation, achieving robust and favorable performance compared with baseline methods.
翻訳日:2024-05-22 01:00:22 公開日:2024-05-17
# 継続的学習における安定性のギャップを克服する

Overcoming the Stability Gap in Continual Learning ( http://arxiv.org/abs/2306.01904v3 )

ライセンス: Link先を確認
Md Yousuf Harun, Christopher Kanan, (参考訳) 事前トレーニングされたディープニューラルネットワーク(DNN)は、ビジネス上の意思決定とユーザへのサービス提供のために、業界によって広くデプロイされているが、大きな問題はモデル崩壊である。 モデル崩壊を軽減するため、DNNは古いデータと新しいデータを使ってゼロから再訓練される。 これは計算コストがかかるため、再トレーニングはパフォーマンスが大幅に低下した時にのみ行われる。 本稿では,大規模なDNNにおけるモデル崩壊を克服し,DNNを最新に保つための計算コストを大幅に削減する可能性について検討する。 私たちは '`stability gap'' を,私たちの設定の大きな障害と捉えています。 安定性のギャップは、CL緩和法が最終的にこの低下を補う前に、新しいデータを学習することで過去のタスクのパフォーマンスが大幅に低下する現象を指す。 安定性のギャップが発生する理由を2つの仮説で検証し、このギャップを大幅に削減する手法を同定する。 簡単なCL分布と難解なCL分布(例:クラスインクリメンタルラーニング)の大規模実験において,本手法が安定性のギャップを減らし,計算効率を大幅に向上させることを示した。 当社の作業は、CLが多くのアプリケーションで必要となる本番環境の目標と整合しています。

Pre-trained deep neural networks (DNNs) are being widely deployed by industry for making business decisions and to serve users; however, a major problem is model decay, where the DNN's predictions become more erroneous over time, resulting in revenue loss or unhappy users. To mitigate model decay, DNNs are retrained from scratch using old and new data. This is computationally expensive, so retraining happens only once performance has significantly decreased. Here, we study how continual learning (CL) could potentially overcome model decay in large pre-trained DNNs and also greatly reduce computational costs for keeping DNNs up-to-date. We identify the ``stability gap'' as a major obstacle in our setting. The stability gap refers to a phenomenon where learning new data causes large drops in performance for past tasks before CL mitigation methods eventually compensate for this drop. We test two hypotheses for why the stability gap occurs and identify a method that vastly reduces this gap. In large-scale experiments for both easy and hard CL distributions (e.g., class incremental learning), we demonstrate that our method reduces the stability gap and greatly increases computational efficiency. Our work aligns CL with the goals of the production setting, where CL is needed for many applications.
翻訳日:2024-05-22 00:50:05 公開日:2024-05-17
# 量子ネットワークのバイパルタイト絡み容量について

On the Bipartite Entanglement Capacity of Quantum Networks ( http://arxiv.org/abs/2307.04477v2 )

ライセンス: Link先を確認
Gayane Vardoyan, Emily van Milligen, Saikat Guha, Stephanie Wehner, Don Towsley, (参考訳) 本研究では,非決定論的エンタングルメントスワップ機能を持つデバイスからなる量子ネットワークにおいて,一対のノードに対するマルチパスエンタングルメント分布の問題を考察する。 マルチパスの絡み合い分布により、ネットワークは、予め確立されたリンクレベルの絡み合いを持つ任意の利用可能な経路をまたいで、エンドツーエンドの絡み合いのあるリンクを確立することができる。 一方、確率的絡み合いスワップは、ノード間で共有される絡み合いの量を制限します。 両端が絡み合った状態のみをネットワーク全体に生成する場合に焦点を絞って、通信を希望する2つの量子終端ノード間の一般化フロー最大化の例として、この問題を論じる。 任意のトポロジを持つネットワークに対して,このフロー問題を解決するため,MIQCP(mixed-integer quadratically constrained program)を提案する。 そして、確率的絡み合ったリンクの存在と不在によって生成された全てのネットワーク状態に対するフロー問題を解くことで、時間単位当たりのEPR状態の最大数として定義されるネットワーク容量を計算し、その後、すべてのネットワーク状態容量を平均化する。 MIQCPは多重リンクを持つネットワークにも適用できる。 ネットワーク全体の容量を計算するためのアプローチは、リンク多重化能力によって全状態が指数関数的に増加するという望ましくない性質を持っているが、しかしながら、容易に実装できるが最適でない絡み合うルーティングアルゴリズムのスループット性能の上限比較基盤として機能する正確な解が得られる。 本稿では,オランダにおける研究目的のバックボーンネットワークであるSURFnetに基づくトポロジを含む,いくつかのネットワークに容量計算手法を適用した。

We consider the problem of multi-path entanglement distribution to a pair of nodes in a quantum network consisting of devices with non-deterministic entanglement swapping capabilities. Multi-path entanglement distribution enables a network to establish end-to-end entangled links across any number of available paths with pre-established link-level entanglement. Probabilistic entanglement swapping, on the other hand, limits the amount of entanglement that is shared between the nodes; this is especially the case when, due to architectural and other practical constraints, swaps must be performed in temporal proximity to each other. Limiting our focus to the case where only bipartite entangled states are generated across the network, we cast the problem as an instance of generalized flow maximization between two quantum end nodes wishing to communicate. We propose a mixed-integer quadratically constrained program (MIQCP) to solve this flow problem for networks with arbitrary topology. We then compute the overall network capacity, defined as the maximum number of EPR states distributed to users per time unit, by solving the flow problem for all possible network states generated by probabilistic entangled link presence and absence, and subsequently by averaging over all network state capacities. The MIQCP can also be applied to networks with multiplexed links. While our approach for computing the overall network capacity has the undesirable property that the total number of states grows exponentially with link multiplexing capability, it nevertheless yields an exact solution that serves as an upper bound comparison basis for the throughput performance of easily-implementable yet non-optimal entanglement routing algorithms. We apply our capacity computation method to several networks, including a topology based on SURFnet -- a backbone network used for research purposes in the Netherlands.
翻訳日:2024-05-22 00:50:05 公開日:2024-05-17
# 測定統計の非古典性に対する厳密な不等式

Tight inequalities for nonclassicality of measurement statistics ( http://arxiv.org/abs/2310.14263v3 )

ライセンス: Link先を確認
V. S. Kovtoniuk, E. V. Stolyarov, O. V. Kliushnichenko, A. A. Semenov, (参考訳) 量子光学では、測光統計(例えば、測光統計)は、古典的な放射場の統計的混合で再生できない場合、非古典的とみなされる。 我々はそのような非古典主義に必要かつ十分な条件を定式化した。 この条件は、古典的な電磁放射に関連する確率の凸集合を強固に束縛する不等式によって与えられる。 これらの不等式の全集合と部分集合の分析形式は、リアルな測光測定と不均衡なホモダイン検出の重要なケースに対して得られる。 一例として、位相印加されたコヒーレント状態の光計数統計について考察する。 一般的な直観とは対照的に、ここで開発された分析は、これらの統計の異なる非古典的な性質を明らかにし、最小限の資源と実験的に相関させることができる。

In quantum optics, measurement statistics -- for example, photocounting statistics -- are considered nonclassical if they cannot be reproduced with statistical mixtures of classical radiation fields. We have formulated a necessary and sufficient condition for such nonclassicality. This condition is given by a set of inequalities that tightly bound the convex set of probabilities associated with classical electromagnetic radiation. Analytical forms for full sets and subsets of these inequalities are obtained for important cases of realistic photocounting measurements and unbalanced homodyne detection. As an example, we consider photocounting statistics of phase-squeezed coherent states. Contrary to a common intuition, the analysis developed here reveals distinct nonclassical properties of these statistics that can be experimentally corroborated with minimal resources.
翻訳日:2024-05-22 00:10:05 公開日:2024-05-17
# SiDA-MoE: スペシャリティにインスパイアされた高効率かつスケーラブルなMixture-of-Expertsモデルのためのデータ認識サービング

SiDA-MoE: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts Models ( http://arxiv.org/abs/2310.18859v2 )

ライセンス: Link先を確認
Zhixu Du, Shiyu Li, Yuhao Wu, Xiangyu Jiang, Jingwei Sun, Qilin Zheng, Yongkai Wu, Ang Li, Hai "Helen" Li, Yiran Chen, (参考訳) Mixture-of-Experts (MoE) は、その固有の利点、すなわち、顕著な計算オーバーヘッドを伴わずにモデル容量を増大させることにより、大規模モデルの時代に好まれるアーキテクチャとして登場した。 しかし、そのような利点の実現は、推論中にモデルパラメータの大部分が休眠状態のままであるため、GPUメモリの非効率利用につながることが多い。 さらに、大きなモデルのメモリ要求は、現代のGPUのメモリ能力より一貫して優れている。 これに対応するために、大規模なMoEモデルに適した効率的な推論手法であるSiDA-MoE ($\textbf{S}$parsity-$\textbf{i}$nspired $\textbf{D}$ata-$\textbf{A}$wareを紹介する。 SiDA-MoEは、MoEモデルのエキスパートアクティベーションに固有の間隔を生かして、現在豊富でスケーラブルなシステムのメインメモリとGPUメモリの両方を巧みに利用している。 データ認識の観点を採用することで、SiDA-MoEは、無視可能な性能低下を伴うモデル効率の向上を実現する。 具体的には、SiDA-MoEはMoE推論の驚くべきスピードアップを達成し、スループットが最大3.93\times$、レイテンシが最大72\%、GPUメモリが最大80\%、パフォーマンスが最大1\%ダウンする。 この作業は、制約のあるリソースでさえも、大規模MOEモデルのスケーラブルで効率的なデプロイの道を開く。 コードは、https://github.com/timlee0212/SiDA-MoE.comで入手できる。

Mixture-of-Experts (MoE) has emerged as a favorable architecture in the era of large models due to its inherent advantage, i.e., enlarging model capacity without incurring notable computational overhead. Yet, the realization of such benefits often results in ineffective GPU memory utilization, as large portions of the model parameters remain dormant during inference. Moreover, the memory demands of large models consistently outpace the memory capacity of contemporary GPUs. Addressing this, we introduce SiDA-MoE ($\textbf{S}$parsity-$\textbf{i}$nspired $\textbf{D}$ata-$\textbf{A}$ware), an efficient inference approach tailored for large MoE models. SiDA-MoE judiciously exploits both the system's main memory, which is now abundant and readily scalable, and GPU memory by capitalizing on the inherent sparsity on expert activation in MoE models. By adopting a data-aware perspective, SiDA-MoE achieves enhanced model efficiency with a neglectable performance drop. Specifically, SiDA-MoE attains a remarkable speedup in MoE inference with up to $3.93\times$ throughput increasing, up to $72\%$ latency reduction, and up to $80\%$ GPU memory saving with down to $1\%$ performance drop. This work paves the way for scalable and efficient deployment of large MoE models, even with constrained resources. Code is available at: https://github.com/timlee0212/SiDA-MoE.
翻訳日:2024-05-22 00:10:05 公開日:2024-05-17
# 汎用回路アーキテクチャにおける近似t-設計

Approximate t-designs in generic circuit architectures ( http://arxiv.org/abs/2310.19783v3 )

ライセンス: Link先を確認
Daniel Belkin, James Allen, Soumik Ghosh, Christopher Kang, Sophia Lin, James Sud, Fred Chong, Bill Fefferman, Bryan K. Clark, (参考訳) 単位的 t-設計(英: Unitary t-designs)は、第一の t モーメントが極大ランダムに現れるユニタリ群上の分布である。 これまでの研究は、特定の特定のランダムな量子回路が近似t-設計をアンサンブルする深さに関するいくつかの上限を確立してきた。 ここでは、これらの境界はハールランダムの2つのサイトゲートの任意の固定されたアーキテクチャに拡張可能であることを示す。 これは、そのようなアーキテクチャのスペクトルギャップと1Dブリックワークアーキテクチャのギャップを関連付けることで達成される。 私たちの境界は、回路のブロックがサイト上の連結グラフを形成するのに必要な典型的な数のレイヤを通してのみアーキテクチャの詳細に依存する。 この量が幅に依存しない場合、回路は線形深さで近似t-設計を形成する。 また、固定アーキテクチャ上の対応する分布の性質の観点から、非決定論的アーキテクチャに暗黙的な境界を与える。

Unitary t-designs are distributions on the unitary group whose first t moments appear maximally random. Previous work has established several upper bounds on the depths at which certain specific random quantum circuit ensembles approximate t-designs. Here we show that these bounds can be extended to any fixed architecture of Haar-random two-site gates. This is accomplished by relating the spectral gaps of such architectures to those of 1D brickwork architectures. Our bound depends on the details of the architecture only via the typical number of layers needed for a block of the circuit to form a connected graph over the sites. When this quantity is independent of width, the circuit forms an approximate t-design in linear depth. We also give an implicit bound for nondeterministic architectures in terms of properties of the corresponding distribution over fixed architectures.
翻訳日:2024-05-22 00:10:05 公開日:2024-05-17
# MirrorCalib: ミラーベースの仮想カメラキャリブレーションのためのヒューマンポーズ情報の利用

MirrorCalib: Utilizing Human Pose Information for Mirror-based Virtual Camera Calibration ( http://arxiv.org/abs/2311.02791v3 )

ライセンス: Link先を確認
Longyun Liao, Rong Zheng, Andrew Mitchell, (参考訳) 本稿では,鏡を用いたエクササイズビデオにおいて,実際のカメラと比較して仮想カメラの外部パラメータを推定する新しいタスクを提案する。 このタスクは、実際のカメラとミラーカメラからのビューが重複したり、健全な特徴を共有したりすることのないシナリオにおいて、大きな課題となる。 この問題に対処するために、人体と2次元関節位置の事前知識を用いて、鏡の前にいるときのカメラ外的パラメータを推定する。 2次元関節位置から初期推定を行うため,修正した8点アルゴリズムを考案した。 2D関節の場所は、人間の身体の制約によって洗練される。 最後に、RANSACアルゴリズムを用いて、そのエピポーラ距離を所定のしきい値と比較することにより、外れ値を取り除く。 MirrorCalib は1.82{\deg} の回転誤差と69.51mmの翻訳誤差を実世界のデータセットで達成し、最先端の手法より優れている。

In this paper, we present the novel task of estimating the extrinsic parameters of a virtual camera relative to a real camera in exercise videos with a mirror. This task poses a significant challenge in scenarios where the views from the real and mirrored cameras have no overlap or share salient features. To address this issue, prior knowledge of a human body and 2D joint locations are utilized to estimate the camera extrinsic parameters when a person is in front of a mirror. We devise a modified eight-point algorithm to obtain an initial estimation from 2D joint locations. The 2D joint locations are then refined subject to human body constraints. Finally, a RANSAC algorithm is employed to remove outliers by comparing their epipolar distances to a predetermined threshold. MirrorCalib achieves a rotation error of 1.82{\deg} and a translation error of 69.51 mm on a collected real-world dataset, which outperforms the state-of-art method.
翻訳日:2024-05-22 00:10:05 公開日:2024-05-17
# 量子コンピューティングアプローチによる高スピンモデルの2次元コヒーレントスペクトル

Two-dimensional coherent spectrum of high-spin models via a quantum computing approach ( http://arxiv.org/abs/2311.14035v3 )

ライセンス: Link先を確認
Martin Mootz, Peter P. Orth, Chuankun Huang, Liang Luo, Jigang Wang, Yong-Xin Yao, (参考訳) 本稿では,高スピンモデルの2次元コヒーレントスペクトル(2DCS)を計算するための量子コンピューティング手法を提案する。 本手法は,数個の磁場パルスの存在下でのリアルタイムダイナミクスのシミュレーションに基づく。 適応型変動量子力学シミュレーション(AVQDS)アルゴリズムを,その小型回路による研究に利用し,周波数空間の必要な分解能を達成するために,十分に長時間のシミュレーションを可能にする。 具体的には、Dzyaloshinskii-Moriya相互作用と単一イオン異方性を含む反強磁性量子スピンモデルを考える。 得られた2DCSスペクトルは、未摂動ハミルトニアンの異なる固有状態間の遷移から生じるマグノン周波数の倍数の異なるピークを示す。 1次元コヒーレントスペクトルを2DCSと比較することにより、2DCSがエネルギースペクトルの高分解能を提供することを示す。 さらに、高スピン演算子の2つの異なるバイナリエンコーディング(標準バイナリエンコーディングとグレイ符号)を用いて、スピンの大きさで量子資源がスケールする方法について検討する。 低磁場では、両方の符号化は同等の量子資源を必要とするが、より大きな磁場ではグレイ符号が有利である。 サイト数が増加するスピンモデルの数値シミュレーションは、量子資源の多項式系サイズのスケーリングを示している。 最後に,2DCSの数値計算結果と希土類オルソフェリット系の実験結果を比較した。 量子ハイスピンモデルの2DCSにおける高調波発生信号の観測強度は実験データとよく一致し, 対応する平均場よりも顕著に向上した。

We present and benchmark a quantum computing approach to calculate the two-dimensional coherent spectrum (2DCS) of high-spin models. Our approach is based on simulating their real-time dynamics in the presence of several magnetic field pulses, which are spaced in time. We utilize the adaptive variational quantum dynamics simulation (AVQDS) algorithm for the study due to its compact circuits, which enables simulations over sufficiently long times to achieve the required resolution in frequency space. Specifically, we consider an antiferromagnetic quantum spin model that incorporates Dzyaloshinskii-Moriya interactions and single-ion anisotropy. The obtained 2DCS spectra exhibit distinct peaks at multiples of the magnon frequency, arising from transitions between different eigenstates of the unperturbed Hamiltonian. By comparing the one-dimensional coherent spectrum with 2DCS, we demonstrate that 2DCS provides a higher resolution of the energy spectrum. We further investigate how the quantum resources scale with the magnitude of the spin using two different binary encodings of the high-spin operators: the standard binary encoding and the Gray code. At low magnetic fields both encodings require comparable quantum resources, but at larger field strengths the Gray code is advantageous. Numerical simulations for spin models with increasing number of sites indicate a polynomial system-size scaling for quantum resources. Lastly, we compare the numerical 2DCS with experimental results on a rare-earth orthoferrite system. The observed strength of the magnonic high-harmonic generation signals in the 2DCS of the quantum high-spin model aligns well with the experimental data, showing significant improvement over the corresponding mean-field results.
翻訳日:2024-05-22 00:00:07 公開日:2024-05-17
# Hot PATE: 分散のプライベートアグリゲーション

Hot PATE: Private Aggregation of Distributions for Diverse Task ( http://arxiv.org/abs/2312.02132v2 )

ライセンス: Link先を確認
Edith Cohen, Benjamin Cohen-Wang, Xin Lyu, Jelani Nelson, Tamas Sarlos, Uri Stemmer, (参考訳) Private Aggregation of Teacher Ensembles (PATE)フレームワークは、プライバシ保護機械学習に対する汎用的なアプローチである。 PATEでは、プライバシ保護を持たない教師モデルは、機密データの異なる部分に基づいて訓練される。 生徒モデルに対するプライバシ保護知識の伝達は,教師の新たな事例に対する予測を個人的に収集することで促進される。 PATEを生成的自己回帰モデルに採用することは、課題と機会の両方を提示する。 これらのモデルは、複数の有効な応答を持つオープンエンド \emph{diverse} (別名ホット)タスクで排他的である。 さらに、モデルに関する知識は、応答分布自体にカプセル化され、この多様性を保存することは、教師から学生への流動的で効果的な知識伝達に不可欠である。 以前のすべての設計では、より高い多様性は教師との合意を低くし、多様性とプライバシのトレードオフをもたらす。 以前のPATEでの作業は、非多様性の設定や多様性の制限に重点を置いていた。 多様な設定に適したデザインである「emph{hot PATE」を提案する。 ホットPATEでは、各教師モデルは、非常に多様な応答分布を生成する。 本稿では, 多様性の保存という概念を数学的にモデル化し, プライバシーを保護し, 多様性を保護し, プライバシーや効率に移行するアグリゲーション手法である<emph{coordinated ensembles}を提案する。 提案手法は,テキスト内学習におけるホットPATEの利点を実証的に実証し,生成モデルの能力をより多く解き放つ可能性を示した。

The Private Aggregation of Teacher Ensembles (PATE) framework is a versatile approach to privacy-preserving machine learning. In PATE, teacher models that are not privacy-preserving are trained on distinct portions of sensitive data. Privacy-preserving knowledge transfer to a student model is then facilitated by privately aggregating teachers' predictions on new examples. Employing PATE with generative auto-regressive models presents both challenges and opportunities. These models excel in open ended \emph{diverse} (aka hot) tasks with multiple valid responses. Moreover, the knowledge of models is often encapsulated in the response distribution itself and preserving this diversity is critical for fluid and effective knowledge transfer from teachers to student. In all prior designs, higher diversity resulted in lower teacher agreement and thus -- a tradeoff between diversity and privacy. Prior works with PATE thus focused on non-diverse settings or limiting diversity to improve utility. We propose \emph{hot PATE}, a design tailored for the diverse setting. In hot PATE, each teacher model produces a response distribution that can be highly diverse. We mathematically model the notion of \emph{preserving diversity} and propose an aggregation method, \emph{coordinated ensembles}, that preserves privacy and transfers diversity with \emph{no penalty} to privacy or efficiency. We demonstrate empirically the benefits of hot PATE for in-context learning via prompts and potential to unleash more of the capabilities of generative models.
翻訳日:2024-05-22 00:00:07 公開日:2024-05-17
# 量子力学は紙上でのみ起こる-QBismのデコヒーレンス論

Quantum Dynamics Happens Only on Paper: QBism's Account of Decoherence ( http://arxiv.org/abs/2312.14112v2 )

ライセンス: Link先を確認
John B. DeBrota, Christopher A. Fuchs, Ruediger Schack, (参考訳) QBismは長い間、量子状態、POVM要素、クラウス演算子、さらには同じ布から切り離されるユニタリ演算さえも認識してきた。 このようなアクション・コンシーケンス対は、伝統的に「量子測定」と呼ばれる。 量子論の計算は、この測度の概念に導かれたベイズ決定理論への経験的な動機付けの付加と見なされる。 この急進的なアプローチにより、QBismは量子力学の他の解釈を悩ませる概念的な問題を排除した。 しかし、QBistがオンティックな(エージェントに依存しない)動的変数の存在を時間の経過とともに信じていない場合、なぜ測定を行わない状態で量子状態の割り当てに制約があるのか? なぜ彼女は、ユニタリまたはオープンシステム量子力学を全く導入しないのか? ここでは、ファン・フラッセンの反射原理に基づく表現定理を示し、これらの疑問に答える。 簡単に言えば、エージェントの量子力学の割り当ては、彼女が考えている測定アクションが将来のギャンブルのために現在の確率を変えない、という彼女の信念を表している。 このアプローチの要点は、量子測定のデコヒーレンス・アカウントに共通する「測定記録付き環境」を導入することなく、「オープン・システム・ダイナミクス」を理解することができることである。 むしろ、非一貫性に関するQBistの理解は、利害関係(システム+環境ではない)についてのエージェントの信念と、彼女がそのシステムで実行するかもしれない測定に関する彼女の判断に完全に依存している。 より広義に、この結果は、測定そのものが量子論の中心的な概念であり、将来のQBistオントロジーが吊るすべき枠組みである、というQBismの主張を立証する。

QBism has long recognized quantum states, POVM elements, Kraus operators, and even unitary operations to be cut from the same cloth: They express aspects of an agent's personal belief system concerning the consequences (for her) of actions she might take on her external world. Such action-consequence pairs have conventionally been called "quantum measurements." The calculus of quantum theory is then viewed as an empirically motivated addition to Bayesian decision theory when brought to this notion of measurement. This radical approach has allowed QBism to eliminate conceptual problems that plague other interpretations of quantum mechanics. However, one issue has remained elusive: If a QBist does not believe in the existence of an ontic (agent-independent) dynamical variable evolving over time, why would there be any constraints on her quantum-state assignment in the absence of performing a measurement? Why would she introduce unitary or open-system quantum dynamics at all? Here, we present a representation theorem based on van Fraassen's reflection principle to answer these questions. Simply put, an agent's assignment of quantum dynamics represents her belief that a measurement action she is contemplating would not change her current odds for future gambles. A corollary to this approach is that one can make sense of "open-system dynamics" without introducing an "environment with a measurement record" as is common in decoherence accounts of quantum measurement. Instead, the QBist understanding of decoherence rests entirely on an agent's beliefs about the system of interest (not system plus environment) and her judgments about measurements she might perform on that system. More broadly, this result establishes QBism's contention that measurement itself is the central concept of quantum theory and thus the framework upon which any future QBist ontology must hang.
翻訳日:2024-05-21 23:50:08 公開日:2024-05-17
# MoSECroT: 言語間ゼロショット転送のための静的単語埋め込みを用いたモデルスティッチ

MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer ( http://arxiv.org/abs/2401.04821v2 )

ライセンス: Link先を確認
Haotian Ye, Yihong Liu, Chunlan Ma, Hinrich Schütze, (参考訳) トランスフォーマーベースの事前学習言語モデル(PLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を発揮している。 しかし、そのようなモデルの事前トレーニングは、高リソース言語でしか利用できないかなりのリソースを必要とする可能性がある。 それとは対照的に、静的な単語の埋め込みは、コンピューティングリソースと必要なデータ量の観点から訓練しやすくなります。 本稿では,静的な単語埋め込みが利用可能な低リソース言語に特に関係のある,斬新で困難なタスクであるMoSECroT Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transferを紹介する。 この課題に対処するため、我々は、相対表現を利用した最初のフレームワークを提示し、ソースコードPLMの埋め込みとターゲット言語の静的単語埋め込みのための共通空間を構築する。 このようにして、ソースコードトレーニングデータに基づいてPLMをトレーニングし、埋め込み層を交換するだけで、ターゲット言語へのゼロショット転送を行うことができる。 しかし,2つの分類データセットに関する広範な実験により,提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。 本稿では、この否定的な結果を説明し、改善の可能性についていくつか考察する。

Transformer-based pre-trained language models (PLMs) have achieved remarkable performance in various natural language processing (NLP) tasks. However, pre-training such models can take considerable resources that are almost only available to high-resource languages. On the contrary, static word embeddings are easier to train in terms of computing resources and the amount of data required. In this paper, we introduce MoSECroT Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer), a novel and challenging task that is especially relevant to low-resource languages for which static word embeddings are available. To tackle the task, we present the first framework that leverages relative representations to construct a common space for the embeddings of a source language PLM and the static word embeddings of a target language. In this way, we can train the PLM on source-language training data and perform zero-shot transfer to the target language by simply swapping the embedding layer. However, through extensive experiments on two classification datasets, we show that although our proposed framework is competitive with weak baselines when addressing MoSECroT, it fails to achieve competitive results compared with some strong baselines. In this paper, we attempt to explain this negative result and provide several thoughts on possible improvement.
翻訳日:2024-05-21 23:40:18 公開日:2024-05-17
# LLMに基づくモジュール型AIシステム構築のための能動ラベル補正

Active Label Correction for Building LLM-based Modular AI Systems ( http://arxiv.org/abs/2401.05467v2 )

ライセンス: Link先を確認
Karan Taneja, Ashok Goel, (参考訳) 大規模言語モデル(LLM)はHuggingGPTやMicrosoft Bing Chatなどのモジュール型AIシステムの構築に使用されている。 ヒューマンインタラクションから収集したデータを用いてデプロイ後のシステムを改善するため、各モジュールを微調整モデルに置き換えることができるが、LLMから受信したアノテーションは低品質である。 そこで本研究では,データセットのごく一部だけを調べることで,データ品質の向上に有効なラベル補正手法を提案する。 本稿では,ChatGPTがアノテートしたデータセットのノイズを分析し,人間のフィードバックで雑音を識別する。 その結果,3つのNLPタスクにまたがるデータセットのノイズの多いサンプル数よりも少ないサンプルに対するフィードバックで,活発なラベル補正がオラクルのパフォーマンス向上につながることが示唆された。

Large Language Models (LLMs) have been used to build modular AI systems such as HuggingGPT, Microsoft Bing Chat, and more. To improve such systems after deployment using the data collected from human interactions, each module can be replaced by a fine-tuned model but the annotations received from LLMs are low quality. We propose that active label correction can be used to improve the data quality by only examining a fraction of the dataset. In this paper, we analyze the noise in datasets annotated by ChatGPT and study denoising it with human feedback. Our results show that active label correction can lead to oracle performance with feedback on fewer examples than the number of noisy examples in the dataset across three different NLP tasks.
翻訳日:2024-05-21 23:40:18 公開日:2024-05-17
# Bayesian Nonparametricsがデータ駆動分散ロバスト最適化に挑戦

Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization ( http://arxiv.org/abs/2401.15771v4 )

ライセンス: Link先を確認
Nicola Bariletto, Nhat Ho, (参考訳) 機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。 リスクは通常、経験的データ分布に関して計算されるが、これは分布の不確実性のため、貧弱で不安定なアウト・オブ・サンプル性能をもたらす可能性がある。 分布的にロバストな最適化の精神において、ベイズ的非パラメトリック(ディリクレ過程)理論と、滑らかなあいまいさ-逆選好の最近の決定論的モデルからの洞察を組み合わせることによって、新しいロバストな基準を提案する。 まず、標準正規化経験的リスク最小化技術との新たな接続を強調し、その中ではリッジとLASSOの回帰について述べる。 そこで,理論上,頑健な最適化手法の性能に対する良好な有限サンプルと漸近的な統計的保証の存在を実証する。 実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。 また, 基準値の滑らかさが, 標準勾配に基づく数値最適化につながることも示している。 最後に、シミュレーションおよび実データに基づく様々なタスクに適用することで、手法の動作に関する洞察を提供する。

Training machine learning and statistical models often involves optimizing a data-driven risk criterion. The risk is usually computed with respect to the empirical data distribution, but this may result in poor and unstable out-of-sample performance due to distributional uncertainty. In the spirit of distributionally robust optimization, we propose a novel robust criterion by combining insights from Bayesian nonparametric (i.e., Dirichlet process) theory and a recent decision-theoretic model of smooth ambiguity-averse preferences. First, we highlight novel connections with standard regularized empirical risk minimization techniques, among which Ridge and LASSO regressions. Then, we theoretically demonstrate the existence of favorable finite-sample and asymptotic statistical guarantees on the performance of the robust optimization procedure. For practical implementation, we propose and study tractable approximations of the criterion based on well-known Dirichlet process representations. We also show that the smoothness of the criterion naturally leads to standard gradient-based numerical optimization. Finally, we provide insights into the workings of our method by applying it to a variety of tasks based on simulated and real datasets.
翻訳日:2024-05-21 23:30:28 公開日:2024-05-17
# SAGD: ガウシアン分解による3次元ガウシアン境界拡張セグメンテーション

SAGD: Boundary-Enhanced Segment Anything in 3D Gaussian via Gaussian Decomposition ( http://arxiv.org/abs/2401.17857v3 )

ライセンス: Link先を確認
Xu Hu, Yuxi Wang, Lue Fan, Junsong Fan, Junran Peng, Zhen Lei, Qing Li, Zhaoxiang Zhang, (参考訳) 3D Gaussian Splattingは、高品質なレンダリング結果とリアルタイムレンダリング速度の恩恵を受けながら、新しいビュー合成のための代替3D表現として登場した。 しかし、3D-GSによって学習された3Dガウス多様体は、幾何的制約を伴わないあいまいな構造を持つ。 この3D-GSの本質的な問題は、個々のオブジェクトを分割する際の粗い境界につながる。 これらの問題を解決するために,SAGDを提案する。SAGDは,分割速度を保ちながらセグメンテーション精度を向上させるために,概念的にシンプルで効果的な3D-GSのセグメンテーションパイプラインである。 具体的には、3Dガウスの特別な構造を巧みに利用し、発見し、そして境界ガウスを分解するガウス分解スキームを導入する。 さらに,高速な対話型3Dセグメンテーションを実現するために,2次元基礎モデルを3D-GSに引き上げることにより,新たなトレーニングフリーパイプラインを導入する。 大規模な実験により, 粗い境界問題なく高品質な3次元セグメンテーションを実現し, 他のシーン編集作業にも容易に適用可能であることが示された。

3D Gaussian Splatting has emerged as an alternative 3D representation for novel view synthesis, benefiting from its high-quality rendering results and real-time rendering speed. However, the 3D Gaussians learned by 3D-GS have ambiguous structures without any geometry constraints. This inherent issue in 3D-GS leads to a rough boundary when segmenting individual objects. To remedy these problems, we propose SAGD, a conceptually simple yet effective boundary-enhanced segmentation pipeline for 3D-GS to improve segmentation accuracy while preserving segmentation speed. Specifically, we introduce a Gaussian Decomposition scheme, which ingeniously utilizes the special structure of 3D Gaussian, finds out, and then decomposes the boundary Gaussians. Moreover, to achieve fast interactive 3D segmentation, we introduce a novel training-free pipeline by lifting a 2D foundation model to 3D-GS. Extensive experiments demonstrate that our approach achieves high-quality 3D segmentation without rough boundary issues, which can be easily applied to other scene editing tasks.
翻訳日:2024-05-21 23:30:28 公開日:2024-05-17
# テキスト・画像モデルにおけるハーム増幅

Harm Amplification in Text-to-Image Models ( http://arxiv.org/abs/2402.01787v2 )

ライセンス: Link先を確認
Susan Hao, Renee Shelby, Yuchi Liu, Hansa Srinivasan, Mukul Bhutani, Burcu Karagol Ayan, Ryan Poplin, Shivani Poddar, Sarah Laszlo, (参考訳) テキスト・ツー・イメージ(T2I)モデルは、生成AIの大幅な進歩として登場したが、ユーザーが安全なプロンプトを入力したとしても、有害な画像出力を生成する可能性について安全上の懸念がある。 T2Iモデルが入力において明示的でない有害な表現を生成するこの現象は、敵対的なプロンプトよりも潜在的に大きなリスクを生じさせ、ユーザーが意図せずに害に晒される。 本論文は,調和増幅と呼ばれるこの現象の定義を形式化し,この問題に対処する。 さらに、ユーザ入力の文脈におけるモデル出力の害を考慮したハーネスアンプリフィケーションを定量化する手法の枠組みを開発することにより、この分野に貢献する。 次に、これらの異なる手法を適用して実世界の展開シナリオをシミュレートする方法を実証的に検討する。 我々の研究は、T2Iシステムの安全性問題に包括的に対処し、生成AIモデルの責任ある展開に貢献する研究者ツールを提供することを目的としている。

Text-to-image (T2I) models have emerged as a significant advancement in generative AI; however, there exist safety concerns regarding their potential to produce harmful image outputs even when users input seemingly safe prompts. This phenomenon, where T2I models generate harmful representations that were not explicit in the input, poses a potentially greater risk than adversarial prompts, leaving users unintentionally exposed to harms. Our paper addresses this issue by formalizing a definition for this phenomenon which we term harm amplification. We further contribute to the field by developing a framework of methodologies to quantify harm amplification in which we consider the harm of the model output in the context of user input. We then empirically examine how to apply these different methodologies to simulate real-world deployment scenarios including a quantification of disparate impacts across genders resulting from harm amplification. Together, our work aims to offer researchers tools to comprehensively address safety challenges in T2I systems and contribute to the responsible deployment of generative AI models.
翻訳日:2024-05-21 23:30:28 公開日:2024-05-17
# 個人別フェアバイナリ分類

Differentially Private Fair Binary Classifications ( http://arxiv.org/abs/2402.15603v2 )

ライセンス: Link先を確認
Hrad Ghoukasian, Shahab Asoodeh, (参考訳) 本研究では,差分プライバシーと公正性の制約下でのバイナリ分類について検討する。 まず,公平性保証のみで分類器を学習するための分離手法に基づくアルゴリズムを提案する。 このアルゴリズムは、異なる階層群で訓練された分類器を取り込み、統計パリティを満たす1つの分類器を生成する。 次に、このアルゴリズムを改良して、差分プライバシーを取り入れます。 最終アルゴリズムの性能は、プライバシー、公正性、実用性保証の観点から厳格に検証される。 アダルトカードとクレディカードのデータセットで実施された実証的な評価は、我々のアルゴリズムが同等のプライバシーと実用性を維持しつつ、公正性の保証の観点から最先端のアルゴリズムより優れていることを示している。

In this work, we investigate binary classification under the constraints of both differential privacy and fairness. We first propose an algorithm based on the decoupling technique for learning a classifier with only fairness guarantee. This algorithm takes in classifiers trained on different demographic groups and generates a single classifier satisfying statistical parity. We then refine this algorithm to incorporate differential privacy. The performance of the final algorithm is rigorously examined in terms of privacy, fairness, and utility guarantees. Empirical evaluations conducted on the Adult and Credit Card datasets illustrate that our algorithm outperforms the state-of-the-art in terms of fairness guarantees, while maintaining the same level of privacy and utility.
翻訳日:2024-05-21 23:10:31 公開日:2024-05-17
# 規制ギャップに対処する - 市民社会を取り入れたEUのAI監査生態系を目指して

Addressing the Regulatory Gap: Moving Towards an EU AI Audit Ecosystem Beyond the AIA by Including Civil Society ( http://arxiv.org/abs/2403.07904v2 )

ライセンス: Link先を確認
David Hartmann, José Renato Laranjeira de Pereira, Chiara Streitbörger, Bettina Berendt, (参考訳) 欧州議会は、プラットフォームと人工知能(AI)製品を規制するためのデジタルサービス法(DSA)と人工知能法(AIA)を提案した。 我々は、サードパーティの監査がどちらの法律にもどの程度含まれているか、また、モデルやデータへのアクセス範囲についてレビューする。 監査エコシステムにおけるサードパーティの監査とサードパーティのデータアクセスの価値を考慮することで、人工知能法が研究者や市民社会にデータへのアクセスを提供していないという規制上のギャップを特定します。 1)コンプライアンスと監視を取り入れたAI監査エコシステムの定義。 2) DSA及びAIA規制枠組みにおける規制ギャップの強調,AI監査エコシステムの確立の防止。 (3)研究・市民社会による第三者監査は、AIAが特定のAI製品にデータとモデルアクセスを含むことを要求するエコシステムの一部でなければならないことを強調する。 我々は、規制ギャップを埋めるために、少なくともリスクの高いシステムに対して、NGOや調査ジャーナリストに委任された行為によるプラットフォームへのデータアクセスを提供し、サードパーティの監査とデータおよびモデルアクセスを提供するためのAIAの適応と修正を要請する。 欧州連合(EU)のAI規制をモデルとした規制は、データアクセスとサードパーティの監査を可能にし、コンプライアンスと監視メカニズムを促進するAI監査エコシステムを育成する。

The European legislature has proposed the Digital Services Act (DSA) and Artificial Intelligence Act (AIA) to regulate platforms and Artificial Intelligence (AI) products. We review to what extent third-party audits are part of both laws and to what extent access to models and data is provided. By considering the value of third-party audits and third-party data access in an audit ecosystem, we identify a regulatory gap in that the Artificial Intelligence Act does not provide access to data for researchers and civil society. Our contributions to the literature include: (1) Defining an AI audit ecosystem that incorporates compliance and oversight. (2) Highlighting a regulatory gap within the DSA and AIA regulatory framework, preventing the establishment of an AI audit ecosystem. (3) Emphasizing that third-party audits by research and civil society must be part of that ecosystem and demand that the AIA include data and model access for certain AI products. We call for the DSA to provide NGOs and investigative journalists with data access to platforms by delegated acts and for adaptions and amendments of the AIA to provide third-party audits and data and model access at least for high-risk systems to close the regulatory gap. Regulations modeled after European Union AI regulations should enable data access and third-party audits, fostering an AI audit ecosystem that promotes compliance and oversight mechanisms.
翻訳日:2024-05-21 23:00:48 公開日:2024-05-17
# 階層ROIと適応量子化による超高忠実画像圧縮

Super-High-Fidelity Image Compression via Hierarchical-ROI and Adaptive Quantization ( http://arxiv.org/abs/2403.13030v2 )

ライセンス: Link先を確認
Jixiang Luo, Yan Wang, Hongwei Qin, (参考訳) 学習された画像圧縮(lic)は、客観的および主観的メトリクスに関して劇的な進歩を遂げた。 MSEベースのモデルは客観的メトリクスを改善することを目的としており、生成モデルは主観的メトリクスによって測定された視覚的品質を改善するために活用される。 しかし、いずれも低ビットレートで、特に0.2bpp$以下のぼやけや変形に悩まされている。 さらに、人間の顔やテキストの変形は視覚的品質評価には受け入れられず、小さな顔やテキストではより顕著になる。 この問題を解決するために、関心領域(ROI)を利用して、MSEベースのモデルと生成モデルの利点を組み合わせる。 本研究では,顔,テキスト,複雑なテクスチャを含む領域の再構成を改善するために,画像を複数の前景領域と1つの背景領域に分割する階層ROI(H-ROI)を提案する。 さらに、チャネル次元内における非線形マッピングによる適応量子化を提案し、視覚的品質を維持しながらビットレートを制約する。 提案手法は,HiFiCの0.7X$ビット,BPGの0.5X$ビットなど,低ビットレートの小さな顔やテキストに対して,より視覚的品質が得られることを示す。

Learned Image Compression (LIC) has achieved dramatic progress regarding objective and subjective metrics. MSE-based models aim to improve objective metrics while generative models are leveraged to improve visual quality measured by subjective metrics. However, they all suffer from blurring or deformation at low bit rates, especially at below $0.2bpp$. Besides, deformation on human faces and text is unacceptable for visual quality assessment, and the problem becomes more prominent on small faces and text. To solve this problem, we combine the advantage of MSE-based models and generative models by utilizing region of interest (ROI). We propose Hierarchical-ROI (H-ROI), to split images into several foreground regions and one background region to improve the reconstruction of regions containing faces, text, and complex textures. Further, we propose adaptive quantization by non-linear mapping within the channel dimension to constrain the bit rate while maintaining the visual quality. Exhaustive experiments demonstrate that our methods achieve better visual quality on small faces and text with lower bit rates, e.g., $0.7X$ bits of HiFiC and $0.5X$ bits of BPG.
翻訳日:2024-05-21 22:50:58 公開日:2024-05-17
# 逆ベイズ分類器の特異性

A Notion of Uniqueness for the Adversarial Bayes Classifier ( http://arxiv.org/abs/2404.16956v2 )

ライセンス: Link先を確認
Natalie S. Frank, (参考訳) 本稿では,二項分類の設定において,逆ベイズ分類器に対して一意性という新たな概念を提案する。 この概念を分析することは、すべての逆ベイズ分類器を1次元のデータ分布のよく動機付けられた族として計算するための単純な手順を生成する。 この特徴を利用して、摂動半径が増加するにつれて、逆ベイズ分類器の正則性は向上することを示す。 様々な例は、逆ベイズ分類器の境界はしばしばベイズ分類器の境界付近にあることを示した。

We propose a new notion of uniqueness for the adversarial Bayes classifier in the setting of binary classification. Analyzing this concept produces a simple procedure for computing all adversarial Bayes classifiers for a well-motivated family of one dimensional data distributions. This characterization is then leveraged to show that as the perturbation radius increases, certain the regularity of adversarial Bayes classifiers improves. Various examples demonstrate that the boundary of the adversarial Bayes classifier frequently lies near the boundary of the Bayes classifier.
翻訳日:2024-05-21 22:21:29 公開日:2024-05-17
# 視覚変換器を用いた表面熱画像からの溶融プール深さパターン予測の深層学習

Deep Learning for Melt Pool Depth Contour Prediction From Surface Thermal Images via Vision Transformers ( http://arxiv.org/abs/2404.17699v3 )

ライセンス: Link先を確認
Francis Ogoke, Peter Myung-Won Pak, Alexander Myers, Guadalupe Quirarte, Jack Beuth, Jonathan Malen, Amir Barati Farimani, (参考訳) レーザー粉層融合(L-PBF)で生成する溶融プール間の十分な重なり合いは、融解欠陥の欠如と機械的および疲労性能の低下につながる可能性がある。 溶融プール地下形態のその場監視には、容易にアクセスできない、または拡張性のない特殊な装置が必要である。 そこで本研究では,高速カラーイメージングにより観察された2色熱画像と溶融プール断面の2次元形状を相関付ける機械学習フレームワークを提案する。 具体的には,光顕微鏡を用いて測定した単一ビーズオフ軸熱画像列と溶融プール断面輪郭との相関関係を確立するために,ハイブリッドCNN-Transformerアーキテクチャを用いる。 このアーキテクチャでは、ResNetモデルは熱画像に含まれる空間情報を潜伏ベクトルに埋め込むが、Transformerモデルは埋め込みベクトルのシーケンスを相関付け、時間情報を抽出する。 本フレームワークは, 地下融解プール構造の曲率をモデル化し, 解析的融解プールモデルと比較して高エネルギー密度モデルの性能を向上させることができる。 本モデルの性能は, 実験用メルトプール観測と比較し, 次元および幾何学的比較により評価した。

Insufficient overlap between the melt pools produced during Laser Powder Bed Fusion (L-PBF) can lead to lack-of-fusion defects and deteriorated mechanical and fatigue performance. In-situ monitoring of the melt pool subsurface morphology requires specialized equipment that may not be readily accessible or scalable. Therefore, we introduce a machine learning framework to correlate in-situ two-color thermal images observed via high-speed color imaging to the two-dimensional profile of the melt pool cross-section. Specifically, we employ a hybrid CNN-Transformer architecture to establish a correlation between single bead off-axis thermal image sequences and melt pool cross-section contours measured via optical microscopy. In this architecture, a ResNet model embeds the spatial information contained within the thermal images to a latent vector, while a Transformer model correlates the sequence of embedded vectors to extract temporal information. Our framework is able to model the curvature of the subsurface melt pool structure, with improved performance in high energy density regimes compared to analytical melt pool models. The performance of this model is evaluated through dimensional and geometric comparisons to the corresponding experimental melt pool observations.
翻訳日:2024-05-21 22:21:29 公開日:2024-05-17
# Diag2Diag:物理発見のためのマルチモーダル超解像診断と融合への応用

Diag2Diag: Multimodal super-resolution diagnostics for physics discovery with application to fusion ( http://arxiv.org/abs/2405.05908v2 )

ライセンス: Link先を確認
Azarakhsh Jalalvand, Max Curie, SangKyeun Kim, Peter Steiner, Jaemin Seo, Qiming Hu, Andrew Oakleigh Nelson, Egemen Kolemen, (参考訳) 本稿では,システム内における診断間相関を革新的に活用する,解像度向上のための基盤的マルチモーダルニューラルネットワークモデルを提案する。 従来のアプローチは、ピクセルベースの画像強調やヒューリスティック信号補間など、一元的エンハンスメント戦略に重点を置いてきた。 対照的に,本モデルは核融合プラズマの物理における診断関係を利用して,新しい手法を用いている。 まず,トカマク内における診断の相関性について検討した。 次に,これらの相関を利用して,プラズマ密度と温度を評価するThomson Scattering (TS) 診断の時間分解能を大幅に向上させる。 この拡張は単純な補間に留まらず、診断間相関に固有の基礎となる物理を保存する超解法を提供する。 従来の0.2kHzから500kHzへのTSの分解能の向上は、従来の診断では困難であったプラズマ不安定性の構造変化と外界摂動に対する応答を捉える診断能力を示す可能性がある。 この物理保存型超解像法は、以前は解像度の限界のために検出できなかった新しい物理の発見や、計算集約的なシミュレーションによってのみ予測された現象の実験的検証を可能にする。

This paper introduces a groundbreaking multimodal neural network model designed for resolution enhancement, which innovatively leverages inter-diagnostic correlations within a system. Traditional approaches have primarily focused on unimodal enhancement strategies, such as pixel-based image enhancement or heuristic signal interpolation. In contrast, our model employs a novel methodology by harnessing the diagnostic relationships within the physics of fusion plasma. Initially, we establish the correlation among diagnostics within the tokamak. Subsequently, we utilize these correlations to substantially enhance the temporal resolution of the Thomson Scattering (TS) diagnostic, which assesses plasma density and temperature. This enhancement goes beyond simple interpolation, offering a super resolution that preserves the underlying physics inherent in inter-diagnostic correlation. Increasing the resolution of TS from conventional 0.2 kHz to 500 kHz could show the diagnostic capability of capturing the structural evolution of plasma instabilities and the response to external field perturbations, that were challenging with conventional diagnostics. This physics-preserving super-resolution technique may enable the discovery of new physics that were previously undetectable due to resolution limitations or allow for the experimental verification of phenomena that had only been predicted through computationally intensive simulations.
翻訳日:2024-05-21 20:25:40 公開日:2024-05-17
# DisBeaNet: 海洋環境認識のための無人表面容器を増強するディープニューラルネットワーク

DisBeaNet: A Deep Neural Network to augment Unmanned Surface Vessels for maritime situational awareness ( http://arxiv.org/abs/2405.06149v2 )

ライセンス: Link先を確認
Srikanth Vemula, Eulises Franco, Michael Frye, (参考訳) 海上の船舶のインテリジェントな検出と追跡は、無人表面船(USV)の交通回避に重要な役割を果たしている。 現在の交通回避ソフトウェアは、主に自動識別システム(AIS)とレーダーに依存し、衝突を避けるために他の船舶を追跡し、ターゲットを検出する典型的な認識システムとして機能する。 しかし、競合する環境では、レーダーエネルギーの放出もまた敵による検出の脆弱性を示す。 これらの高周波送信源を非活性化すると、検出の脅威が増大し、付近の船舶の交通をモニターするUSVの能力が低下する。 そこで本論文では,この問題に対処するためのUSV支援を目的とした受動センシング機能を備えた搭載カメラを用いた知的視覚認識システムについて述べる。 本稿では,海洋環境における船舶の検知・追跡のための低コスト視覚認識システムを提案する。 この新しい低コスト視覚認識システムはディープラーニングフレームワークを用いて導入される。 ニューラルネットワークであるDisBeaNetは、血管を検出し、追跡し、単眼カメラから血管の距離と軸受を推定することができる。 このニューラルネットワークから得られる出力は、特定された容器の緯度と経度を決定するために使用される。

Intelligent detection and tracking of the vessels on the sea play a significant role in conducting traffic avoidance in unmanned surface vessels(USV). Current traffic avoidance software relies mainly on Automated Identification System (AIS) and radar to track other vessels to avoid collisions and acts as a typical perception system to detect targets. However, in a contested environment, emitting radar energy also presents the vulnerability to detection by adversaries. Deactivating these Radiofrequency transmitting sources will increase the threat of detection and degrade the USV's ability to monitor shipping traffic in the vicinity. Therefore, an intelligent visual perception system based on an onboard camera with passive sensing capabilities that aims to assist USV in addressing this problem is presented in this paper. This paper will present a novel low-cost vision perception system for detecting and tracking vessels in the maritime environment. This novel low-cost vision perception system is introduced using the deep learning framework. A neural network, DisBeaNet, can detect vessels, track, and estimate the vessel's distance and bearing from the monocular camera. The outputs obtained from this neural network are used to determine the latitude and longitude of the identified vessel.
翻訳日:2024-05-21 20:25:40 公開日:2024-05-17
# マルチ視点予測による360度映像ストリーミングのためのMADRLに基づくレート適応

MADRL-Based Rate Adaptation for 360° Video Streaming with Multi-Viewpoint Prediction ( http://arxiv.org/abs/2405.07759v2 )

ライセンス: Link先を確認
Haopeng Wang, Zijian Long, Haiwei Dong, Abdulmotaleb El Saddik, (参考訳) ここ数年で、ネットワーク上の360度ビデオトラフィックは大幅に増加した。 360{\deg}ビデオ再生の重要な課題は、ネットワーク帯域幅が制限された高品質なエクスペリエンス(QoE)を保証することである。 現在、ほとんどの研究は、単一のビューポート予測に基づいてタイルベースの適応ビットレート(ABR)ストリーミングに焦点を当てている。 しかし, 単一視点予測モデルの性能は, ユーザの突然の動きに対処できない頭部運動の不確実性によって著しく制限されている。 本稿ではまず,複数の視点軌跡を歴史的軌跡として生成する多モード空間的注意変換器を提案する。 提案手法は、視点予測を分類問題としてモデル化し、多視点予測のための入力ビデオフレームと視点軌跡の空間的・時間的特性をキャプチャするための注意機構を用いる。 その後、様々なネットワーク条件下でのQoE目標の最大化のために、360{\deg}ビデオストリーミングのマルチ視点予測を用いたマルチエージェントディープ強化学習(MADRL)に基づくABRアルゴリズムを提案する。 本稿では,ABR問題を分散部分観測可能マルコフ決定プロセス(Dec-POMDP)問題として定式化し,集中学習と分散実行(CTDE)に基づくMAPPOアルゴリズムを提案する。 実験の結果,提案手法は既存のABR法と比較して,定義したQoE法を85.5%改善することがわかった。

Over the last few years, 360{\deg} video traffic on the network has grown significantly. A key challenge of 360{\deg} video playback is ensuring a high quality of experience (QoE) with limited network bandwidth. Currently, most studies focus on tile-based adaptive bitrate (ABR) streaming based on single viewport prediction to reduce bandwidth consumption. However, the performance of models for single-viewpoint prediction is severely limited by the inherent uncertainty in head movement, which can not cope with the sudden movement of users very well. This paper first presents a multimodal spatial-temporal attention transformer to generate multiple viewpoint trajectories with their probabilities given a historical trajectory. The proposed method models viewpoint prediction as a classification problem and uses attention mechanisms to capture the spatial and temporal characteristics of input video frames and viewpoint trajectories for multi-viewpoint prediction. After that, a multi-agent deep reinforcement learning (MADRL)-based ABR algorithm utilizing multi-viewpoint prediction for 360{\deg} video streaming is proposed for maximizing different QoE objectives under various network conditions. We formulate the ABR problem as a decentralized partially observable Markov decision process (Dec-POMDP) problem and present a MAPPO algorithm based on centralized training and decentralized execution (CTDE) framework to solve the problem. The experimental results show that our proposed method improves the defined QoE metric by up to 85.5% compared to existing ABR methods.
翻訳日:2024-05-21 20:15:46 公開日:2024-05-17
# 混合量子古典系のハイゼンベルク力学

Heisenberg dynamics of mixed quantum-classical systems ( http://arxiv.org/abs/2405.10653v1 )

ライセンス: Link先を確認
David Martínez-Crespo, Cesare Tronci, (参考訳) ハイゼンベルク表現における相互作用量子系と古典系の力学を考察する。 標準的な量子力学における通常の構成とは異なり、混合量子古典系は、量子可観測物に作用するユニタリ作用素と古典的な自由度を網羅するラグランジュ軌道との相互作用を含む。 この相互作用は、古典的な軌道上で量子自由度によって抽出されたバックリアクションによって特に困難となる複雑な構造を反映している。 バックリアクションは一般的なエレンフェストモデルでは過小評価されているが、より最近の手法は古典力学におけるクープマン波動関数に頼ってこの重要な効果を捉えることに成功している。 幸いにも、Ehrenfest と Koopman の2つのモデルは、量子古典的カップリングの基礎となる幾何学的構造を広げるためにここで利用される変分的枠組みを享受している。 特別な役割は、統計的相関を含む非アベリア純ゲージポテンシャルに対する微分型ラグランジアン経路の作用によって演じられる。 Ehrenfest dynamics の単純なケースで治療を行った後、クープマンモデルに移行し、そのバックリアクション項の役割を提示する。 最後に、純粋に強調されたシステムのコンテキストにおける両方のモデルを比較する。

We consider the dynamics of interacting quantum and classical systems in the Heisenberg representation. Unlike the usual construction in standard quantum mechanics, mixed quantum-classical systems involve the interplay of unitary operators acting on the quantum observables and the Lagrangian trajectories sweeping the classical degrees of freedom. This interplay reflects an intricate structure which is made particularly challenging by the backreaction excerpted on the classical trajectories by the quantum degrees of freedom. While the backreaction is underestimated in the common Ehrenfest model, more recent methodologies succeed in capturing this important effect by resorting to Koopman wavefunctions in classical mechanics. Luckily, both Ehrenfest and Koopman models enjoy a variational framework which is exploited here to unfold the geometric structure underlying quantum-classical coupling. A special role is played by the action of the diffeomorphic Lagrangian paths on a non-Abelian pure-gauge potential which comprises statistical correlations. After presenting the treatment in the simple case of Ehrenfest dynamics, we move on to the Koopman model and present the role of the backreaction terms therein. Finally, we compare both models in the context of pure-dephasing systems.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-17
# 無線アプリケーション設計における大規模言語モデル:In-Context Learning-enhanced Automatic Network Intrusion Detection

Large Language Models in Wireless Application Design: In-Context Learning-enhanced Automatic Network Intrusion Detection ( http://arxiv.org/abs/2405.11002v1 )

ライセンス: Link先を確認
Han Zhang, Akram Bin Sediq, Ali Afana, Melike Erol-Kantarci, (参考訳) 大規模言語モデル(LLM)、特に生成前訓練変圧器(GPT)は、情報理解と問題解決において顕著な能力を示した。 このことは、無線通信ネットワークにLLMを適用する多くの研究の動機となった。 本稿では,完全に自動的なネットワーク侵入検出を実現するための,事前学習型LLMフレームワークを提案する。 3つの文脈内学習法を設計・比較し,LLMの性能向上を図る。 実ネットワーク侵入検出データセットの実験により、LLMのさらなるトレーニングや微調整が不要な方法で、コンテキスト内学習はタスク処理性能を改善する上で非常に有益であることが証明された。 GPT-4では,テスト精度とF1スコアを90%向上できることを示した。 さらに、事前訓練されたLCMは、無線通信関連のタスクを実行する大きな可能性を示す。 具体的には、GPT-4による攻撃の精度とF1スコアが95%以上に達し、文脈内学習例は10に過ぎなかった。

Large language models (LLMs), especially generative pre-trained transformers (GPTs), have recently demonstrated outstanding ability in information comprehension and problem-solving. This has motivated many studies in applying LLMs to wireless communication networks. In this paper, we propose a pre-trained LLM-empowered framework to perform fully automatic network intrusion detection. Three in-context learning methods are designed and compared to enhance the performance of LLMs. With experiments on a real network intrusion detection dataset, in-context learning proves to be highly beneficial in improving the task processing performance in a way that no further training or fine-tuning of LLMs is required. We show that for GPT-4, testing accuracy and F1-Score can be improved by 90%. Moreover, pre-trained LLMs demonstrate big potential in performing wireless communication-related tasks. Specifically, the proposed framework can reach an accuracy and F1-Score of over 95% on different types of attacks with GPT-4 using only 10 in-context learning examples.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# スパース近似逆プレコンディショナーの生成モデリング

Generative modeling of Sparse Approximate Inverse Preconditioners ( http://arxiv.org/abs/2405.11007v1 )

ライセンス: Link先を確認
Mou Li, He Wang, Peter K. Jimack, (参考訳) 楕円微分作用素のメッシュに基づく離散化から生じる行列系に対するスパース近似逆数(SPAI)プレコンディショナーを生成するための新しいディープラーニングパラダイムを提案する。 このアプローチは、この方法で生成された行列は任意のものではなく、微分される微分作用素から性質を継承する、という観察に基づいている。 そこで本研究では,SPAIプレコンディショナを生成するオートエンコーダを用いて,低次元部分空間からの高性能プリコンディショナの学習可能な分布を表現することを目的とする。 この概念は、2階および4階楕円偏微分方程式の様々な有限要素離散化に実装され、高い有望な結果が得られる。

We present a new deep learning paradigm for the generation of sparse approximate inverse (SPAI) preconditioners for matrix systems arising from the mesh-based discretization of elliptic differential operators. Our approach is based upon the observation that matrices generated in this manner are not arbitrary, but inherit properties from differential operators that they discretize. Consequently, we seek to represent a learnable distribution of high-performance preconditioners from a low-dimensional subspace through a carefully-designed autoencoder, which is able to generate SPAI preconditioners for these systems. The concept has been implemented on a variety of finite element discretizations of second- and fourth-order elliptic partial differential equations with highly promising results.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# 人工知能を用いた睡眠ステージ分類と睡眠障害検出に関するシステムレビューとメタ分析

A Systematic Review and Meta-Analysis on Sleep Stage Classification and Sleep Disorder Detection Using Artificial Intelligence ( http://arxiv.org/abs/2405.11008v1 )

ライセンス: Link先を確認
Tayab Uddin Wara, Ababil Hossain Fahad, Adri Shankar Das, Md. Mehedi Hasan Shawon, (参考訳) 睡眠は人々の身体的および精神的な健康にとって不可欠であり、音波睡眠は日々の活動に集中するのに有効である。 そのため、睡眠パターンや障害を含む睡眠研究は、個人の健康状態に関する知識を高めるために不可欠である。 睡眠段階と睡眠障害の所見は、多ソノグラフィーと自己申告尺度に依存し、その後、専門医による臨床評価を経た。 しかし、睡眠段階分類と睡眠障害の評価プロセスは、人工知能の応用や、計算の容易さと正確性を向上させる高度なアルゴリズムと技術を用いて、様々なデータセットに焦点を当てた多くの調査が実施されている。 本研究の目的は,近年の文献を包括的,体系的,メタ分析して,AIを用いた睡眠段階分類と睡眠障害検出に関する研究を含む睡眠研究における様々なアプローチとその成果を分析することである。 このレビューでは、最初183の論文が異なる雑誌から選ばれ、そのうち80の論文が2016年から2023年まで、明示的なレビューのために登録された。 脳波は、睡眠ステージングや障害研究に最もよく用いられる身体パラメータである。 畳み込みニューラルネットワークは34の異なる人工知能モデルの中で最も広く使われているもので、27%であった。 他のモデルには、長い短期記憶、サポートベクターマシン、ランダムフォレスト、リカレントニューラルネットワークが含まれており、11%、6%、6%、5%が順次構成されている。 パフォーマンス指標では、最大83.75%のケース、F1スコアの45%、Kappaスコアの36.25%、感度の31.25%、およびその他の指標の30%のケースで精度が広く使用された。 この記事では、医師や研究者が、睡眠研究へのAIの貢献と、彼らの意図した仕事の実現可能性を得るのに役立つだろう。

Sleep is vital for people's physical and mental health, and sound sleep can help them focus on daily activities. Therefore, a sleep study that includes sleep patterns and disorders is crucial to enhancing our knowledge about individuals' health status. The findings on sleep stages and sleep disorders relied on polysomnography and self-report measures, and then the study went through clinical assessments by expert physicians. However, the evaluation process of sleep stage classification and sleep disorder has become more convenient with artificial intelligence applications and numerous investigations focusing on various datasets with advanced algorithms and techniques that offer improved computational ease and accuracy. This study aims to provide a comprehensive, systematic review and meta-analysis of the recent literature to analyze the different approaches and their outcomes in sleep studies, which includes works on sleep stages classification and sleep disorder detection using AI. In this review, 183 articles were initially selected from different journals, among which 80 records were enlisted for explicit review, ranging from 2016 to 2023. Brain waves were the most commonly employed body parameters for sleep staging and disorder studies. The convolutional neural network, the most widely used of the 34 distinct artificial intelligence models, comprised 27%. The other models included the long short-term memory, support vector machine, random forest, and recurrent neural network, which consisted of 11%, 6%, 6%, and 5% sequentially. For performance metrics, accuracy was widely used for a maximum of 83.75% of the cases, the F1 score of 45%, Kappa of 36.25%, Sensitivity of 31.25%, and Specificity of 30% of cases, along with the other metrics. This article would help physicians and researchers get the gist of AI's contribution to sleep studies and the feasibility of their intended work.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# 肝におけるグルコース調節過程のモデル化におけるペトリネット

Petri nets in modelling glucose regulating processes in the liver ( http://arxiv.org/abs/2405.11009v1 )

ライセンス: Link先を確認
Kamila Barylska, Anna Gogolińska, (参考訳) 糖尿病は慢性疾患であり、高い血糖値が持続するのが特徴である文明病の1つと考えられている。 糖尿病に苦しむ人が増えていることは間違いないので、その生物学的基盤をよりよく理解することが不可欠である。 血液中のグルコース濃度の制御に必須の過程は、糖分解(グルコースを分解する過程)とグルコース合成(いずれも肝臓で起こる)である。 糖分解は摂食中に起こり、インスリンによって刺激される。 一方、グルコース合成は断食中に発生し、グルカゴンによって刺激される。 本稿では,肝における糖分解とグルコース合成のペトリネットモデルについて述べる。 モデルは医学文献に基づいて作成される。 標準ペトリネット技術は、トラップ、到達可能性グラフ、トークンダイナミクス、デッドロック分析といったモデルの性質を分析するために使用される。 結果は論文に記載されている。 我々の分析は、このモデルが異なる酵素と物質間の相互作用を捉えていることを示している。 このモデルは、健康な人と糖尿病患者の血糖調節の全体モデルを作成するという、長年の目標の最初の要素である。

Diabetes is a chronic condition, considered one of the civilization diseases, that is characterized by sustained high blood sugar levels. There is no doubt that more and more people is going to suffer from diabetes, hence it is crucial to understand better its biological foundations. The essential processes related to the control of glucose levels in the blood are: glycolysis (process of breaking down of glucose) and glucose synthesis, both taking place in the liver. The glycolysis occurs during feeding and it is stimulated by insulin. On the other hand, the glucose synthesis arises during fasting and it is stimulated by glucagon. In the paper we present a Petri net model of glycolysis and glucose synthesis in the liver. The model is created based on medical literature. Standard Petri nets techniques are used to analyse the properties of the model: traps, reachability graphs, tokens dynamics, deadlocks analysis. The results are described in the paper. Our analysis shows that the model captures the interactions between different enzymes and substances, which is consistent with the biological processes occurring during fasting and feeding. The model constitutes the first element of our long-time goal to create the whole body model of the glucose regulation in a healthy human and a person with diabetes.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# 印加電流解析のためのジル-アザトンパラメータ推定の不確かさ分布評価

Uncertainty Distribution Assessment of Jiles-Atherton Parameter Estimation for Inrush Current Studies ( http://arxiv.org/abs/2405.11011v1 )

ライセンス: Link先を確認
Jone Ugarte-Valdivielso, Jose I. Aizpurua, Manex Barrenetxea-Iñarra, (参考訳) 変圧器は交流配電網と再生可能電力統合において重要な資産の1つである。 変圧器のエネルギ化インラッシャ電流が現れると、変圧器の劣化が起こり、格子不安定現象を引き起こす。 これらのインラッシャ電流は、グリッドへの接続中の変圧器の磁気コア飽和の結果である。 トランスフォーマーコアは通常、5つのパラメータを含むJiles-Atherton(JA)モデルでモデル化される。 これらのパラメータはメタヒューリスティックな探索アルゴリズムによって推定できる。 これらのアルゴリズムのパラメータ初期化は、アルゴリズム収束において重要な役割を果たす。 JAパラメータの初期化に使用される最も一般的な戦略は、ランダムな均一分布である。 しかし、確率密度関数(PDF)によるパラメータ初期化(パラメータ初期化)のような手法により、ランダムな手法よりも精度が向上することが示されている。 本研究は,JAパラメータ推定の性能に及ぼすパラメータ初期化戦略の影響を評価するための枠組みを提案する。 利用可能なデータや専門家の知識によって、不確実性レベルは異なるPDFでモデル化される。 さらに、2つの異なるコア材料に3つの異なるメタヒューリスティック探索アルゴリズムを適用し、その精度と計算時間を比較する。 その結果,PDFパラメータ初期化を用いたメタヒューリスティックアルゴリズムの精度と計算時間が改善された。

Transformers are one of the key assets in AC distribution grids and renewable power integration. During transformer energization inrush currents appear, which lead to transformer degradation and can cause grid instability events. These inrush currents are a consequence of the transformer's magnetic core saturation during its connection to the grid. Transformer cores are normally modelled by the Jiles-Atherton (JA) model which contains five parameters. These parameters can be estimated by metaheuristic-based search algorithms. The parameter initialization of these algorithms plays an important role in the algorithm convergence. The most popular strategy used for JA parameter initialization is a random uniform distribution. However, techniques such as parameter initialization by Probability Density Functions (PDFs) have shown to improve accuracy over random methods. In this context, this research work presents a framework to assess the impact of different parameter initialization strategies on the performance of the JA parameter estimation for inrush current studies. Depending on available data and expert knowledge, uncertainty levels are modelled with different PDFs. Moreover, three different metaheuristic-search algorithms are employed on two different core materials and their accuracy and computational time are compared. Results show an improvement in the accuracy and computational time of the metaheuristic-based algorithms when PDF parameter initialization is used.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# ARDDQN:UAVカバーパス計画とデータハーベスティングのための二重深度Q-Networkの注意

ARDDQN: Attention Recurrent Double Deep Q-Network for UAV Coverage Path Planning and Data Harvesting ( http://arxiv.org/abs/2405.11013v1 )

ライセンス: Link先を確認
Praveen Kumar, Priyadarshni, Rajiv Misra, (参考訳) 無人航空機(UAV)は、特定の領域を効率的に調査し、航空的な視点からデータを収集するためのデータ収集(DH)とカバレッジパス計画(CPP)で人気を集めており、データ収集は様々なモノのインターネット(IoT)センサーデバイスから情報を収集することを目的としており、指定された領域内のすべての場所が最小冗長性と最大効率で訪問されることを保証する。 本稿では,Double Deep Q-networks(DDQN)とリカレントニューラルネットワーク(RNN)を統合したARDDQN(Attention-based Recurrent Double Deep Q Network)を提案する。 圧縮された地球環境マップと、UAVエージェントが大規模環境に効率よくスケールすることを示すローカルマップからなる構造化環境マップを用いている。 我々は,Long Short-term memory (LSTM), Bi-directional long short-term memory (Bi-LSTM), Gated Recurrent Unit (GRU), Bidirectional gated Recurrent Unit (Bi-GRU) を,RNNを使わずにリカレントニューラルネットワーク (RNN) として比較した。

Unmanned Aerial Vehicles (UAVs) have gained popularity in data harvesting (DH) and coverage path planning (CPP) to survey a given area efficiently and collect data from aerial perspectives, while data harvesting aims to gather information from various Internet of Things (IoT) sensor devices, coverage path planning guarantees that every location within the designated area is visited with minimal redundancy and maximum efficiency. We propose the ARDDQN (Attention-based Recurrent Double Deep Q Network), which integrates double deep Q-networks (DDQN) with recurrent neural networks (RNNs) and an attention mechanism to generate path coverage choices that maximize data collection from IoT devices and to learn a control scheme for the UAV that generalizes energy restrictions. We employ a structured environment map comprising a compressed global environment map and a local map showing the UAV agent's locate efficiently scaling to large environments. We have compared Long short-term memory (LSTM), Bi-directional long short-term memory (Bi-LSTM), Gated recurrent unit (GRU) and Bidirectional gated recurrent unit (Bi-GRU) as recurrent neural networks (RNN) to the result without RNN We propose integrating the LSTM with the Attention mechanism to the existing DDQN model, which works best on evolution parameters, i.e., data collection, landing, and coverage ratios for the CPP and data harvesting scenarios.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# アラビア名詞体系の生成

The Arabic Noun System Generation ( http://arxiv.org/abs/2405.11014v1 )

ライセンス: Link先を確認
Abdelhadi Soudi, Violetta Cavalli-Sforza, Abderrahim Jamari, (参考訳) 本稿では,複数パターンが壊れた名詞に対する多節的アプローチにより,形態素系においてより広範な一般化が記述できることを示す。 このようなアプローチは、高度に同型化された複数のシステムを説明するために必要とされる、トランカッキング/削除ルールやその他の複雑なルールを不要にする。 屈折音名詞の生成は、語彙において、複数の男性音を表す接尾辞と、複数の女性音、すなわちuwna及びaAtの事前特定を必要とする。 第1節の第1節は、アラビア語の壊れた複数体の以前の分析の一部を評価している。 故障した複数を特異点または根から引き出すことに対する言語的および統計的証拠を提供する。 第2節では,レキセメを基盤とした形態学の枠組みにおいて,アラビア語の名詞複数体系に対する複数のステムアプローチを提案する。 第2節では、アラビア語の名詞の屈折に注目します。 第3節は、MORPHEにおけるアラビア名詞体系の実装を提供する。 この文脈では、言語分析セクションで議論された一般化が、同値ノードを用いてMorpheでどのように捉えられているかを示す。

In this paper, we show that the multiple-stem approach to nouns with a broken plural pattern allows for greater generalizations to be stated in the morphological system. Such an approach dispenses with truncating/deleting rules and other complex rules that are required to account for the highly allomorphic broken plural system. The generation of inflected sound nouns necessitates a pre-specification of the affixes denoting the sound plural masculine and the sound plural feminine, namely uwna and aAt, in the lexicon. The first subsection of section one provides an evaluation of some of the previous analyses of the Arabic broken plural. We provide both linguistic and statistical evidence against deriving broken plurals from the singular or the root. In subsection two, we propose a multiple stem approach to the Arabic Noun Plural System within the Lexeme-based Morphology framework. In section two, we look at the noun inflection of Arabic. Section three provides an implementation of the Arabic Noun system in MORPHE. In this context, we show how the generalizations discussed in the linguistic analysis section are captured in Morphe using the equivalencing nodes.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# 量子コンピュータを用いた電池材料のX線吸収分光シミュレーション

Simulating X-ray absorption spectroscopy of battery materials on a quantum computer ( http://arxiv.org/abs/2405.11015v1 )

ライセンス: Link先を確認
Stepan Fomichev, Kasra Hejazi, Ignacio Loaiza, Modjtaba Shokrian Zini, Alain Delgado, Arne-Christian Voigt, Jonathan E. Mueller, Juan Miguel Arrazola, (参考訳) X線吸収分光法は電池材料の構造劣化機構を解明するための重要な実験手法である。 しかし, 高精度なシミュレーションがなければ, 測定スペクトルから情報を抽出することは困難である。 本研究では,量子コンピューティングへの応用として,近縁X線吸収スペクトルのシミュレーションを提案する。 X線吸収の超局所的な性質により、シミュレーションされる問題のサイズが大幅に減少し、またスペクトルをシミュレートする古典的な硬さのため、魅力的である。 我々は、X線吸収スペクトルを計算し、その漸近的なコストを提供するための3つの量子アルゴリズムについて述べる。 そのうちの1つはモンテカルロをベースとした時間領域アルゴリズムであり、初期のフォールトトレラント量子コンピュータに費用対効果がある。 次に、Li過剰電池陰極におけるO-MnクラスターのCAS(22e,18o)活性空間を工業的に応用し、同じ物質の基底状態エネルギー推定よりもはるかに少ない量子ビットとゲートで実用的に有用なシミュレーションが得られることを示した。

X-ray absorption spectroscopy is a crucial experimental technique for elucidating the mechanisms of structural degradation in battery materials. However, extracting information from the measured spectrum is challenging without high-quality simulations. In this work, we propose simulating near-edge X-ray absorption spectra as a promising application for quantum computing. It is attractive due to the ultralocal nature of X-ray absorption that significantly reduces the sizes of problems to be simulated, and because of the classical hardness of simulating spectra. We describe three quantum algorithms to compute the X-ray absorption spectrum and provide their asymptotic cost. One of these is a Monte-Carlo based time-domain algorithm, which is cost-friendly to early fault-tolerant quantum computers. We then apply the framework to an industrially relevant example, a CAS(22e,18o) active space for an O-Mn cluster in a Li-excess battery cathode, showing that practically useful simulations could be obtained with much fewer qubits and gates than ground-state energy estimation of the same material.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# Google Earth画像とガウススプラッティングを用いた光現実的3次元都市景観復元と点雲抽出

Photorealistic 3D Urban Scene Reconstruction and Point Cloud Extraction using Google Earth Imagery and Gaussian Splatting ( http://arxiv.org/abs/2405.11021v1 )

ライセンス: Link先を確認
Kyle Gao, Dening Lu, Hongjie He, Linlin Xu, Jonathan Li, (参考訳) 3次元都市景観の再構築とモデリングは、遠隔センシングにおいて重要な研究領域であり、学術、商業、産業、行政における多くの応用がある。 ビュー合成モデルの最近の進歩は、2次元画像のみから光リアルな3D再構成を促進する。 Google Earthの画像を活用することで、ウォータールー大学を中心としたウォータールー地域の3次元ガウス散乱モデルを構築し、我々のベンチマークで示した神経放射場に基づく従来の3次元ビュー合成結果よりもはるかに高いビュー合成結果を得ることができる。 さらに,3次元ガウス散乱モデルから抽出した3次元点雲を用いてシーンの3次元形状を復元し,大規模都市景観の3次元幾何と光リアル照明の両方を3次元ガウス散乱により再構成した。

3D urban scene reconstruction and modelling is a crucial research area in remote sensing with numerous applications in academia, commerce, industry, and administration. Recent advancements in view synthesis models have facilitated photorealistic 3D reconstruction solely from 2D images. Leveraging Google Earth imagery, we construct a 3D Gaussian Splatting model of the Waterloo region centered on the University of Waterloo and are able to achieve view-synthesis results far exceeding previous 3D view-synthesis results based on neural radiance fields which we demonstrate in our benchmark. Additionally, we retrieved the 3D geometry of the scene using the 3D point cloud extracted from the 3D Gaussian Splatting model which we benchmarked against our Multi- View-Stereo dense reconstruction of the scene, thereby reconstructing both the 3D geometry and photorealistic lighting of the large-scale urban scene through 3D Gaussian Splatting
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# GraSS:SATソルバー選択のための専門知識とグラフニューラルネットワークを組み合わせる

GraSS: Combining Graph Neural Networks with Expert Knowledge for SAT Solver Selection ( http://arxiv.org/abs/2405.11024v1 )

ライセンス: Link先を確認
Zhanguang Zhang, Didier Chetelat, Joseph Cotnareanu, Amur Ghose, Wenyi Xiao, Hui-Ling Zhen, Yingxue Zhang, Jianye Hao, Mark Coates, Mingxuan Yuan, (参考訳) SAT問題(Boolean satisfiability)は、SATソルバによって現実のアプリケーションで日常的に解決されるが、同じインスタンスのソルバ間では時間が大きく異なることがある。 これは、特定のSATインスタンスに対して、いくつかの選択肢の中からソルバを選択することができる機械学習モデルの研究を動機付けている。 既存のSATソルバ選択手法はすべて、SATグラフの構造情報を計算し無視するのにコストがかかる手書きのインスタンス機能に依存している。 本稿では、インスタンスの3部グラフ表現に基づくSATソルバ自動選択のための新しいアプローチであるGraSSと、異種グラフニューラルネットワーク(GNN)モデルを提案する。 GNNは以前、SAT関連のタスクで採用されていたが、ドメイン固有の知識は一切含みておらず、異なる節順で導入されたランタイムのバリエーションを無視している。 我々は、新しいノードの特徴設計、グラフ内の節の位置エンコーディング、三部グラフに適したGNNアーキテクチャ、実行時依存の損失関数など、ドメイン固有の決定でグラフ表現を豊かにする。 2022 SATコンペティションの20年記念トラックの事例と産業用回路設計ベンチマークの両方において,この生の表現とドメイン固有の選択の組み合わせが,7つの最先端ソルバプールのランタイム改善につながることを実証した。

Boolean satisfiability (SAT) problems are routinely solved by SAT solvers in real-life applications, yet solving time can vary drastically between solvers for the same instance. This has motivated research into machine learning models that can predict, for a given SAT instance, which solver to select among several options. Existing SAT solver selection methods all rely on some hand-picked instance features, which are costly to compute and ignore the structural information in SAT graphs. In this paper we present GraSS, a novel approach for automatic SAT solver selection based on tripartite graph representations of instances and a heterogeneous graph neural network (GNN) model. While GNNs have been previously adopted in other SAT-related tasks, they do not incorporate any domain-specific knowledge and ignore the runtime variation introduced by different clause orders. We enrich the graph representation with domain-specific decisions, such as novel node feature design, positional encodings for clauses in the graph, a GNN architecture tailored to our tripartite graphs and a runtime-sensitive loss function. Through extensive experiments, we demonstrate that this combination of raw representations and domain-specific choices leads to improvements in runtime for a pool of seven state-of-the-art solvers on both an industrial circuit design benchmark, and on instances from the 20-year Anniversary Track of the 2022 SAT Competition.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# ジェネレーティブ人工知能 : システムレビューと応用

Generative Artificial Intelligence: A Systematic Review and Applications ( http://arxiv.org/abs/2405.11029v1 )

ライセンス: Link先を確認
Sandeep Singh Sengar, Affan Bin Hasan, Sanjay Kumar, Fiona Carroll, (参考訳) 近年、人工知能(AI)の研究はパラダイムシフトを経験している。 これは、教師なしの学習シナリオと教師なしの学習シナリオの両方において、生成モデルの画期的な能力によって推進されている。 生成AIは、画像翻訳、医療診断、テキスト画像融合、自然言語処理などの分野における現実世界の難問を解決する上で、最先端のパフォーマンスを示している。 本稿では,ジェネレーティブAIにおける最近の進歩と技術に関する体系的なレビューと分析を,アプリケーション固有のモデルを含む応用に関する詳細な議論で報告する。 実際、生成AIがこれまで行った大きな影響は、画像翻訳の分野や、生成AIのいくつかの学際的応用など、大きな言語モデルの開発による言語生成である。 さらに,本論文の主な貢献は,これらの領域における最新の進歩のコヒーレントな合成であり,この分野における現代的ブレークスルーをシームレスに織り込むことである。 特に、どのようにして生成AIの将来の軌跡を探究するか。 結論として、この論文は、責任あるAIの原則と、これらの生成モデルの持続可能性と成長に必要な倫理的考察から締めくくられる。

In recent years, the study of artificial intelligence (AI) has undergone a paradigm shift. This has been propelled by the groundbreaking capabilities of generative models both in supervised and unsupervised learning scenarios. Generative AI has shown state-of-the-art performance in solving perplexing real-world conundrums in fields such as image translation, medical diagnostics, textual imagery fusion, natural language processing, and beyond. This paper documents the systematic review and analysis of recent advancements and techniques in Generative AI with a detailed discussion of their applications including application-specific models. Indeed, the major impact that generative AI has made to date, has been in language generation with the development of large language models, in the field of image translation and several other interdisciplinary applications of generative AI. Moreover, the primary contribution of this paper lies in its coherent synthesis of the latest advancements in these areas, seamlessly weaving together contemporary breakthroughs in the field. Particularly, how it shares an exploration of the future trajectory for generative AI. In conclusion, the paper ends with a discussion of Responsible AI principles, and the necessary ethical considerations for the sustainability and growth of these generative models.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# ソーシャルメディアコンテンツのアルゴリズム的モデレーションにおけるインテントの役割

The Unappreciated Role of Intent in Algorithmic Moderation of Social Media Content ( http://arxiv.org/abs/2405.11030v1 )

ライセンス: Link先を確認
Xinyu Wang, Sai Koneru, Pranav Narayanan Venkit, Brett Frischmann, Sarah Rajtmajer, (参考訳) ソーシャルメディアが世界的なコミュニケーションの主流となっている中、乱暴なコンテンツの増加は市民の会話を損なう恐れがある。 この問題の批判的な性質を認識し、様々な種類のオンライン虐待、ヘイトスピーチ、サイバーいじめを検知できる言語モデルの開発に、かなりの研究機関が費やされている。 しかし、しばしば著者の意図をコンテンツモデレーションの基準と見なすプラットフォームポリシーと、通常意図を捉える努力を欠いている検出モデルの現在の能力との間には、顕著な不一致がある。 本稿では,コンテンツモデレーションシステムにおける意図の役割について考察する。 我々は、オンライン悪用のための最先端検出モデルとベンチマークトレーニングデータセットをレビューし、その意識と意図を捉える能力を評価する。 本稿では,不正行為の倫理的・政策的概念化との整合性を改善するため,自動検知・モデレーションシステムの設計・開発における戦略的変化を提案する。

As social media has become a predominant mode of communication globally, the rise of abusive content threatens to undermine civil discourse. Recognizing the critical nature of this issue, a significant body of research has been dedicated to developing language models that can detect various types of online abuse, e.g., hate speech, cyberbullying. However, there exists a notable disconnect between platform policies, which often consider the author's intention as a criterion for content moderation, and the current capabilities of detection models, which typically lack efforts to capture intent. This paper examines the role of intent in content moderation systems. We review state of the art detection models and benchmark training datasets for online abuse to assess their awareness and ability to capture intent. We propose strategic changes to the design and development of automated detection and moderation systems to improve alignment with ethical and policy conceptualizations of abuse.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-17
# スピン鎖と相互作用する3量子系における量子絡み合いのダイナミクス

Quantum entanglement dynamics in a three-qubit system interacting with a spin chain ( http://arxiv.org/abs/2405.11031v1 )

ライセンス: Link先を確認
Seyed Mohsen Moosavi Khansari, Fazlollah Kazemi Hasanvand, (参考訳) 本稿では,スピン鎖環境下での3量子状態の絡み合い進化について検討する。 エンタングルメント評価の指標として負性性を用いることにより,初期状態としてGHZ,W,W_zeta量子状態に着目した。 種々のパラメータに基づいて,これらの状態の絡み合いのダイナミクスを探索し,解析する。

In this article, we investigate the entanglement evolution of three-qubit states in the presence of a spin chain environment. Utilizing negativity as a metric for entanglement assessment, we focus on the GHZ, W, and W_zeta quantum states as the initial system states. We explore and analyze the entanglement dynamics of these states based on various parameters.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# グラフ機械学習における安全性 - 脅威と保護

Safety in Graph Machine Learning: Threats and Safeguards ( http://arxiv.org/abs/2405.11034v1 )

ライセンス: Link先を確認
Song Wang, Yushun Dong, Binchi Zhang, Zihan Chen, Xingbo Fu, Yinhan He, Cong Shen, Chuxu Zhang, Nitesh V. Chawla, Jundong Li, (参考訳) グラフ機械学習(Graph ML)は近年,大幅な進歩を遂げている。 グラフ構造化データを処理する優れた能力によって、Graph ML技術は、金融、ヘルスケア、輸送といった重要な領域を含む、さまざまなアプリケーションで広く利用されています。 社会的利益にもかかわらず、最近の研究はグラフMLモデルの普及に伴う重要な安全性上の懸念を浮き彫りにしている。 安全性を重視した設計が欠如しているため、これらのモデルは信頼性の低い予測を導き、一般化性の低下を示し、データの機密性を侵害することができる。 金融詐欺検出のような高額なシナリオでは、これらの脆弱性は個人と社会の両方を全般的に危険に晒す可能性がある。 したがって、これらのリスクを軽減し、それらのアプリケーションに対する公衆の信頼を高めるために、安全指向のグラフMLモデルの開発を優先することが不可欠である。 本稿では,グラフMLの安全性向上に不可欠な3つの重要な側面として,信頼性,汎用性,機密性について考察する。 我々は、モデル脅威、データ脅威、およびアタック脅威という3つの見出しの下に、各側面の脅威を分類し分析する。 この新たな分類学は、これらの脅威から保護するための効果的な戦略のレビューを導く。 我々の体系的なレビューは、実用的な安全中心のグラフMLモデルを開発することを目的とした将来の研究の基盤を定めている。 さらに、安全なグラフMLプラクティスの重要性を強調し、この重要な領域でさらなる調査を行うための有望な道を提案する。

Graph Machine Learning (Graph ML) has witnessed substantial advancements in recent years. With their remarkable ability to process graph-structured data, Graph ML techniques have been extensively utilized across diverse applications, including critical domains like finance, healthcare, and transportation. Despite their societal benefits, recent research highlights significant safety concerns associated with the widespread use of Graph ML models. Lacking safety-focused designs, these models can produce unreliable predictions, demonstrate poor generalizability, and compromise data confidentiality. In high-stakes scenarios such as financial fraud detection, these vulnerabilities could jeopardize both individuals and society at large. Therefore, it is imperative to prioritize the development of safety-oriented Graph ML models to mitigate these risks and enhance public confidence in their applications. In this survey paper, we explore three critical aspects vital for enhancing safety in Graph ML: reliability, generalizability, and confidentiality. We categorize and analyze threats to each aspect under three headings: model threats, data threats, and attack threats. This novel taxonomy guides our review of effective strategies to protect against these threats. Our systematic review lays a groundwork for future research aimed at developing practical, safety-centered Graph ML models. Furthermore, we highlight the significance of safe Graph ML practices and suggest promising avenues for further investigation in this crucial area.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# DeFiTail: クロスコントラクト実行分析によるDeFiプロトコル検査

DeFiTail: DeFi Protocol Inspection through Cross-Contract Execution Analysis ( http://arxiv.org/abs/2405.11035v1 )

ライセンス: Link先を確認
Wenkai Li, Xiaoqi Li, Yuqing Zhang, Zongwei Li, (参考訳) DeFi(Decentralized Finance)プロトコルは、ブロックチェーン上に開発された暗号通貨で、デジタル資産を管理する。 DeFiの攻撃は頻繁に行われ、損失は77億ドルを超えた。 しかし、悪意のあるDeFiイベントの検出方法はまだ不足している。 本稿では,DeFi上で発生する可能性のあるアクセス制御とフラッシュローンのエクスプロイトを検出するために,ディープラーニングを利用した最初のフレームワークであるDeFiTailを提案する。 DeFiプロトコルのイベントにはマルチアカウントトランザクションによる呼び出しが含まれているため、異なるコントラクトで実行パスを統一する必要がある。 さらに、制御フローグラフ(CFG)接続におけるミスの影響を軽減するために、シンボル実行スタックを用いてデータパスを検証する。 さらに、DeFiプロトコルの検査を実現するために、モデルを通してデータパスを供給します。 実験の結果、DeFiTailは98.39%のアクセス制御、97.43%のフラッシュローンのエクスプロイトを達成している。 DeFiTailはまた、悪意のあるコントラクトを検出する機能を強化し、CVEデータセットから86.67%の精度を識別する。

Decentralized finance (DeFi) protocols are crypto projects developed on the blockchain to manage digital assets. Attacks on DeFi have been frequent and have resulted in losses exceeding \$77 billion. However, detection methods for malicious DeFi events are still lacking. In this paper, we propose DeFiTail, the first framework that utilizes deep learning to detect access control and flash loan exploits that may occur on DeFi. Since the DeFi protocol events involve invocations with multi-account transactions, which requires execution path unification with different contracts. Moreover, to mitigate the impact of mistakes in Control Flow Graph (CFG) connections, we validate the data path by employing the symbolic execution stack. Furthermore, we feed the data paths through our model to achieve the inspection of DeFi protocols. Experimental results indicate that DeFiTail achieves the highest accuracy, with 98.39% in access control and 97.43% in flash loan exploits. DeFiTail also demonstrates an enhanced capability to detect malicious contracts, identifying 86.67% accuracy from the CVE dataset.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# CC-GPX:Common Crawlによる高品質アノテート地理空間データの抽出

CC-GPX: Extracting High-Quality Annotated Geospatial Data from Common Crawl ( http://arxiv.org/abs/2405.11039v1 )

ライセンス: Link先を確認
Ilya Ilyankou, James Haworth, Stefano Cavazzi, (参考訳) Common Crawl (CC) コーパスは2008年以来9.5ペタバイト以上のデータを含む最大のオープンウェブクローリングデータセットである。 データセットは、大規模な言語モデルのトレーニングに役立ち、(望ましくない)コンテンツのために研究され、より小さなドメイン固有のデータセットのために蒸留されている。 しかし、我々の知る限りでは、注釈付き地理空間データの源としてCCを用いる研究は行われていない。 本稿では,CC で発見された GPX ファイルから注釈付きユーザ生成トラックを抽出するための効率的なパイプラインと,人文記述と MultiLineString ベクトルデータを組み合わせた1,416 個のマルチモーダルデータセットを提案する。 このデータセットは、人々のアウトドアアクティビティパターン、アウトドアエクスペリエンスについて話す方法、軌跡生成やアノテーションモデルの開発に使用することができる。

The Common Crawl (CC) corpus is the largest open web crawl dataset containing 9.5+ petabytes of data captured since 2008. The dataset is instrumental in training large language models, and as such it has been studied for (un)desirable content, and distilled for smaller, domain-specific datasets. However, to our knowledge, no research has been dedicated to using CC as a source of annotated geospatial data. In this paper, we introduce an efficient pipeline to extract annotated user-generated tracks from GPX files found in CC, and the resulting multimodal dataset with 1,416 pairings of human-written descriptions and MultiLineString vector data. The dataset can be used to study people's outdoor activity patterns, the way people talk about their outdoor experiences, and for developing trajectory generation or track annotation models.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# ジェネラリストからスペシャリストへ:ARCoTを用いた医学物理のための大規模言語モデルの改善

From Generalist to Specialist: Improving Large Language Models for Medical Physics Using ARCoT ( http://arxiv.org/abs/2405.11040v1 )

ライセンス: Link先を確認
Jace Grandinetti, Rafe McBeth, (参考訳) 大規模言語モデル(LLM)は目覚ましい進歩を遂げているが、医学などの専門分野への応用は、ドメイン固有の知識を必要とするため、依然として困難である。 本研究では、微調整や大規模な再訓練を必要とせず、LLMのドメイン固有精度を高めるために設計されたフレームワークであるARCoT(Adaptable Retrieval-based Chain of Thought)を紹介する。 ARCoTは、関連するドメイン固有の情報にアクセスするための検索メカニズムを統合し、ステップバックとチェーン・オブ・シグナリング技術を使用して、LCMの推論プロセスをガイドし、より正確でコンテキスト対応の応答を保証する。 医療物理多重選択試験のベンチマークでは、標準LLMよりも優れ、平均的な人的パフォーマンスを報告し、最大68%の改善を示し、90%の高得点を達成した。 この方法は幻覚を減らし、ドメイン固有のパフォーマンスを高める。 ARCoTの汎用性とモデルに依存しない性質は、様々な領域に適応しやすく、特殊分野におけるLCMの精度と信頼性を高める重要な可能性を示している。

Large Language Models (LLMs) have achieved remarkable progress, yet their application in specialized fields, such as medical physics, remains challenging due to the need for domain-specific knowledge. This study introduces ARCoT (Adaptable Retrieval-based Chain of Thought), a framework designed to enhance the domain-specific accuracy of LLMs without requiring fine-tuning or extensive retraining. ARCoT integrates a retrieval mechanism to access relevant domain-specific information and employs step-back and chain-of-thought prompting techniques to guide the LLM's reasoning process, ensuring more accurate and context-aware responses. Benchmarking on a medical physics multiple-choice exam, our model outperformed standard LLMs and reported average human performance, demonstrating improvements of up to 68% and achieving a high score of 90%. This method reduces hallucinations and increases domain-specific performance. The versatility and model-agnostic nature of ARCoT make it easily adaptable to various domains, showcasing its significant potential for enhancing the accuracy and reliability of LLMs in specialized fields.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# 2つのRSAベースの暗号システム

Two RSA-based Cryptosystems ( http://arxiv.org/abs/2405.11041v1 )

ライセンス: Link先を確認
A. Telveenus, (参考訳) 暗号システムRSAは、暗号の研究において非常に人気のある暗号システムである。 本稿では、リングにおけるユニタリの原始的なmth根のアイデアを離散フーリエ変換に統合し、RSA-DFTやRSA-HGRと呼ばれる新しい暗号システムを開発する方法について考察する。

The cryptosystem RSA is a very popular cryptosystem in the study of Cryptography. In this article, we explore how the idea of a primitive mth root of unity in a ring can be integrated into the Discrete Fourier Transform, leading to the development of new cryptosystems known as RSA-DFT and RSA-HGR.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# MovieLensの信奉データ:オンラインレコメンダシステムのためのプレChoiceデータ収集

The MovieLens Beliefs Dataset: Collecting Pre-Choice Data for Online Recommender Systems ( http://arxiv.org/abs/2405.11053v1 )

ライセンス: Link先を確認
Guy Aridor, Duarte Goncalves, Ruoyan Kong, Daniel Culver, Joseph Konstan, (参考訳) レコメンデーションシステムをデザインする上でますます重要な側面は、リコメンデーションが消費者の選択にどのように影響するかを検討することである。 本稿では,未経験項目に対するユーザの信念を収集する手法を導入することでこの問題に対処する。 この手法をMovieLensプラットフォームに実装し,ユーザ評価,信条,レコメンデーションを組み合わせたリッチデータセットを構築した。 このようなデータ収集の課題には、応答における選択バイアスや、製品空間の限定的なカバレッジなどが含まれる。 このユニークなリソースにより、研究者はユーザーの振る舞いを深く掘り下げ、不在のレコメンデーションを分析し、レコメンデーションの有効性を計測し、ユーザー信条データを活用するアルゴリズムのプロトタイプを作成することができ、最終的にはより影響力のあるレコメンデーションシステムに繋がる。 データセットはhttps://grouplens.org/datasets/movielens/ml_belief_2024/で見ることができる。

An increasingly important aspect of designing recommender systems involves considering how recommendations will influence consumer choices. This paper addresses this issue by introducing a method for collecting user beliefs about un-experienced items - a critical predictor of choice behavior. We implemented this method on the MovieLens platform, resulting in a rich dataset that combines user ratings, beliefs, and observed recommendations. We document challenges to such data collection, including selection bias in response and limited coverage of the product space. This unique resource empowers researchers to delve deeper into user behavior and analyze user choices absent recommendations, measure the effectiveness of recommendations, and prototype algorithms that leverage user belief data, ultimately leading to more impactful recommender systems. The dataset can be found at https://grouplens.org/datasets/movielens/ml_belief_2024/.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# 会議エキス作成のためのレバレッジな談話構造

Leveraging discourse structure for the creation of meeting extracts ( http://arxiv.org/abs/2405.11055v1 )

ライセンス: Link先を確認
Virgile Rennard, Guokan Shang, Julie Hunter, Michalis Vazirgiannis, (参考訳) 談話構造を利用した会議の抽出要約システムを導入し、複雑な多人数討論からより詳細な情報を識別する。 会議における発話の内容間の意味関係を表現するために,談話グラフを用いて,GNNに基づくノード分類モデルを訓練し,最も重要な発話を選択する。 AMIおよびICSIを用いた実験結果から,本手法が既存のテキストベースおよびグラフベース抽出要約システムを上回ることが確認された。 さらに、談話構造と関係型に関するアブレーション研究を行い、談話分析理論を利用した今後のNLP応用の洞察を提供する。

We introduce an extractive summarization system for meetings that leverages discourse structure to better identify salient information from complex multi-party discussions. Using discourse graphs to represent semantic relations between the contents of utterances in a meeting, we train a GNN-based node classification model to select the most important utterances, which are then combined to create an extractive summary. Experimental results on AMI and ICSI demonstrate that our approach surpasses existing text-based and graph-based extractive summarization systems, as measured by both classification and summarization metrics. Additionally, we conduct ablation studies on discourse structure and relation type to provide insights for future NLP applications leveraging discourse analysis theory.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# ガーメントドレイピング技術の比較研究

A Comparative Study of Garment Draping Techniques ( http://arxiv.org/abs/2405.11056v1 )

ライセンス: Link先を確認
Prerana Achar, Mayank Patel, Anushka Mulik, Neha Katre, Stevina Dias, Chirag Raman, (参考訳) 本稿では,3次元ファッションデザイン,仮想試行錯誤,アニメーションなどにおいて,衣料ドレーピングの一般的な手法を評価するための比較検討を行う。 衣服を人体に塗布する様々な方法の比較研究を行った。 物理や機械学習ベースのテクニック、衝突処理など、数多くのモデルが含まれている。 性能評価とトレードオフを議論し、最も適切なアプローチを選択する際に、適切な意思決定を確実にする。 これらの方法は, デジタル衣服の変形や細いしわを正確に表現し, データ要求の要因や効率を考慮し, 現実的な結果を生み出すことを目的としている。 この研究は、動的に多層的な3D衣服を視覚化する研究者、デザイナー、開発者には見識を与えることができる。

We present a comparison review that evaluates popular techniques for garment draping for 3D fashion design, virtual try-ons, and animations. A comparative study is performed between various methods for garment draping of clothing over the human body. These include numerous models, such as physics and machine learning based techniques, collision handling, and more. Performance evaluations and trade-offs are discussed to ensure informed decision-making when choosing the most appropriate approach. These methods aim to accurately represent deformations and fine wrinkles of digital garments, considering the factors of data requirements, and efficiency, to produce realistic results. The research can be insightful to researchers, designers, and developers in visualizing dynamic multi-layered 3D clothing.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# フルーガーアルゴリズムの選択

Frugal Algorithm Selection ( http://arxiv.org/abs/2405.11059v1 )

ライセンス: Link先を確認
Erdem Kuş, Özgür Akgün, Nguyen Dang, Ian Miguel, (参考訳) 決定と最適化の問題を解決するとき、多くの競合するアルゴリズム(モデルとソルバの選択)は相補的な強みを持つ。 通常、問題のすべてのインスタンスでうまく機能する単一のアルゴリズムは存在しない。 自動アルゴリズム選択は、与えられたインスタンスに適したアルゴリズムを選択するのに非常に適していることが示されている。 しかし、トレーニングインスタンスの代表セット上で候補アルゴリズムを実行するため、トレーニングのコストは違法に大きくなる可能性がある。 本研究では、トレーニング対象のトレーニングインスタンスのサブセットを選択することで、このコストを削減する方法について検討する。 我々は,この問題を3つの方法でアプローチする: 能動的学習を用いて予測の不確実性に基づいて決定し, アルゴリズム予測器をタイムアウト予測器で拡張し, 徐々に増加するタイムアウトを用いてトレーニングデータを収集する。 提案手法をASLibの6つのデータセットに組み合わせて評価し,各オプションで達成したラベル付けコストの削減について述べる。

When solving decision and optimisation problems, many competing algorithms (model and solver choices) have complementary strengths. Typically, there is no single algorithm that works well for all instances of a problem. Automated algorithm selection has been shown to work very well for choosing a suitable algorithm for a given instance. However, the cost of training can be prohibitively large due to running candidate algorithms on a representative set of training instances. In this work, we explore reducing this cost by choosing a subset of the training instances on which to train. We approach this problem in three ways: using active learning to decide based on prediction uncertainty, augmenting the algorithm predictors with a timeout predictor, and collecting training data using a progressively increasing timeout. We evaluate combinations of these approaches on six datasets from ASLib and present the reduction in labelling cost achieved by each option.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# TVCondNet:NMRスペクトロスコピーのための条件付きDenoising Neural Network

TVCondNet: A Conditional Denoising Neural Network for NMR Spectroscopy ( http://arxiv.org/abs/2405.11064v1 )

ライセンス: Link先を確認
Zihao Zou, Shirin Shoushtari, Jiaming Liu, Jialiang Zhang, Patrick Judge, Emilia Santana, Alison Lim, Marcus Foston, Ulugbek S. Kamilov, (参考訳) 核磁気共鳴分光法(英: Nuclear Magnetic Resonance spectroscopy, NMR)は、化学・化学・生物学の分野で広く用いられている手法である。 NMRスペクトルからの信号は、取得ノイズによる低信号対雑音比(SNR)を持つことが多く、その後の分析には大きな課題が生じる。 近年の研究では、NMR復調のための深層学習(DL)の可能性を探り、総変分法(TV)復調のような従来の手法よりも顕著な性能向上を示した。 本稿では,従来のテレビ放送とデータ駆動トレーニングを組み合わせることで,NMR用DLデノナイジングの性能をさらに向上できることを示す。 提案したTVCondNet法は、DLトレーニング中にTVソリューションを条件として、従来のTVとDLの両方の手法より優れている。 実験で収集したNMRデータに対する検証は,TVCondNetの従来の手法と比較して,優れたノイズ発生性能と高速な推論速度を示す。

Nuclear Magnetic Resonance (NMR) spectroscopy is a widely-used technique in the fields of bio-medicine, chemistry, and biology for the analysis of chemicals and proteins. The signals from NMR spectroscopy often have low signal-to-noise ratio (SNR) due to acquisition noise, which poses significant challenges for subsequent analysis. Recent work has explored the potential of deep learning (DL) for NMR denoising, showing significant performance gains over traditional methods such as total variation (TV) denoising. This paper shows that the performance of DL denoising for NMR can be further improved by combining data-driven training with traditional TV denoising. The proposed TVCondNet method outperforms both traditional TV and DL methods by including the TV solution as a condition during DL training. Our validation on experimentally collected NMR data shows the superior denoising performance and faster inference speed of TVCondNet compared to existing methods.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# ツールの助けを借りて混合精度を実現する:ネクボーンのケーススタディ

Enabling mixed-precision with the help of tools: A Nekbone case study ( http://arxiv.org/abs/2405.11065v1 )

ライセンス: Link先を確認
Yanxiang Chen, Pablo de Oliveira Castro, Paolo Bientinesi, Roman Iakymchuk, (参考訳) 混合精度計算は、エクサスケール計算のコストを大幅に削減する可能性があるが、いつ、どのようにプログラムに実装するかを決定することは困難である。 本稿では,CFD ソルバ Nek5000 のミニアプリケーションである Nekbone をケーススタディとして,計算機演算ツールと屋上モデルを用いて混合精度を実現する手法を提案する。 得られた混合精度プログラムを,精度,解答時間,解答エネルギーの3次元で組み合わせて評価した。 特に、ネクボーンに混合精度を導入し、40.7%の溶出時間と128メガワットの溶出エネルギーを47%の精度で削減した。

Mixed-precision computing has the potential to significantly reduce the cost of exascale computations, but determining when and how to implement it in programs can be challenging. In this article, we consider Nekbone, a mini-application for the CFD solver Nek5000, as a case study, and propose a methodology for enabling mixed-precision with the help of computer arithmetic tools and roofline model. We evaluate the derived mixed-precision program by combining metrics in three dimensions: accuracy, time-to-solution, and energy-to-solution. Notably, the introduction of mixed-precision in Nekbone, reducing time-to-solution by 40.7% and energy-to-solution by 47% on 128 MPI ranks.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# ベイズ学習によるクラスインクリメンタル学習のための原型コントラスト損失

Bayesian Learning-driven Prototypical Contrastive Loss for Class-Incremental Learning ( http://arxiv.org/abs/2405.11067v1 )

ライセンス: Link先を確認
Nisha L. Raichur, Lucas Heublein, Tobias Feigl, Alexander Rügamer, Christopher Mutschler, Felix Ott, (参考訳) 連続学習における手法の主な目的は、破滅的な忘れ込みの有害な現象を軽減しつつ、データのストリームから連続的にタスクを学習することである。 本稿では,従来のプロトタイプと新たに遭遇したプロトタイプの最適な表現を学習することに焦点を当てる。 本稿では,クラス増分学習シナリオに特化して,ベイズ学習駆動型コントラスト損失(BLCL)を持つプロトタイプネットワークを提案する。 そこで我々は,クラス内距離を小さくし,クラス間距離を増大させることにより,新しいクラスを潜在表現に組み込むコントラスト的損失を導入する。 提案手法は,ベイズ学習手法を用いて,クロスエントロピーとコントラスト損失関数のバランスを動的に適用する。 画像分類のためのCIFAR-10データセットと干渉分類のためのGNSSベースデータセットの両方で実施した実験的な評価は,既存の最先端手法よりも優れていることを示す。

The primary objective of methods in continual learning is to learn tasks in a sequential manner over time from a stream of data, while mitigating the detrimental phenomenon of catastrophic forgetting. In this paper, we focus on learning an optimal representation between previous class prototypes and newly encountered ones. We propose a prototypical network with a Bayesian learning-driven contrastive loss (BLCL) tailored specifically for class-incremental learning scenarios. Therefore, we introduce a contrastive loss that incorporates new classes into the latent representation by reducing the intra-class distance and increasing the inter-class distance. Our approach dynamically adapts the balance between the cross-entropy and contrastive loss functions with a Bayesian learning technique. Empirical evaluations conducted on both the CIFAR-10 dataset for image classification and images of a GNSS-based dataset for interference classification validate the efficacy of our method, showcasing its superiority over existing state-of-the-art approaches.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# Jill Watson: ChatGPTを利用したバーチャル指導アシスタント

Jill Watson: A Virtual Teaching Assistant powered by ChatGPT ( http://arxiv.org/abs/2405.11070v1 )

ライセンス: Link先を確認
Karan Taneja, Pratyusha Maiti, Sandeep Kakar, Pranav Guruprasad, Sanjeev Rao, Ashok K. Goel, (参考訳) 会話型AIエージェントは、公開されていないトレーニングのために広範囲なデータセットを必要とすることが多く、社会的なチャットや特定のドメインを扱うことに限定されており、AI技術の最新の進歩に対応するために簡単に拡張できない場合がある。 本稿では,ChatGPTの機能を活用した会話型仮想教示アシスタント(VTA)であるJill Watsonを紹介する。 ChatGPTをベースとしたJill Watson氏は事前のトレーニングを必要とせず、モジュール設計を使用して、XiaoIceにインスパイアされたスキルベースのアーキテクチャを使用して、新しいAPIを統合する。 ジル・ワトソン(Jill Watson)は、複数の大きな文書を使って処理し、会話できるインテリジェントな教科書にも適している。 我々は、再現性と拡張性のために、公開リソースを独占的に活用する。 比較分析の結果,従来の知識ベースであるJill WatsonやOpenAI Assistantsサービスよりも優れていることがわかった。 我々は幻覚や毒性の事例を減らすための安全対策を多数採用している。 この論文には、Jill Watsonの異なる特徴とその有効性を示す教室設定の実例も含まれている。

Conversational AI agents often require extensive datasets for training that are not publicly released, are limited to social chit-chat or handling a specific domain, and may not be easily extended to accommodate the latest advances in AI technologies. This paper introduces Jill Watson, a conversational Virtual Teaching Assistant (VTA) leveraging the capabilities of ChatGPT. Jill Watson based on ChatGPT requires no prior training and uses a modular design to allow the integration of new APIs using a skill-based architecture inspired by XiaoIce. Jill Watson is also well-suited for intelligent textbooks as it can process and converse using multiple large documents. We exclusively utilize publicly available resources for reproducibility and extensibility. Comparative analysis shows that our system outperforms the legacy knowledge-based Jill Watson as well as the OpenAI Assistants service. We employ many safety measures that reduce instances of hallucinations and toxicity. The paper also includes real-world examples from a classroom setting that demonstrate different features of Jill Watson and its effectiveness.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# FeMLoc: IoTネットワークにおける適応型ワイヤレス屋内ローカライゼーションタスクのためのフェデレーションメタラーニング

FeMLoc: Federated Meta-learning for Adaptive Wireless Indoor Localization Tasks in IoT Networks ( http://arxiv.org/abs/2405.11079v1 )

ライセンス: Link先を確認
Yaya Etiabi, Wafa Njima, El Mehdi Amhoud, (参考訳) モノのインターネットの急速な成長は、屋内のローカライゼーションのようなタスクのためのコネクテッドデバイス間のコラボレーションを促進する。 しかし、既存の屋内ローカライゼーションソリューションは動的で厳しい条件に苦しむため、広範なデータ収集と環境固有のキャリブレーションが必要である。 これらの要因は、先行研究の協力、拡張性、利用を妨げている。 これらの課題に対処するため、我々は、ローカライゼーションのためのフェデレーションされたメタラーニングフレームワークFeMLocを提案する。 FeMLOCは2つの段階に分かれている。 (i) エッジデバイスからの多様なローカライゼーションデータセットをトレーニングすることで,グローバルメタモデルを作成する共同メタトレーニング。 (II) 事前学習したグローバルメタモデルがローカライズモデルを初期化し, 少量の新しいデータで最小限の微調整しか必要としない新しい環境への迅速な適応。 本稿では、FeMLocの技術的な概要を詳述し、屋内ローカライゼーションの文脈におけるプライバシー保護メタラーニングのユニークなアプローチを強調した。 性能評価では,FeMLOCが最先端手法よりも優れていることが示され,キャリブレーションの少ない室内環境への迅速な適応が可能となった。 特に、FeMLocは100段階の勾配の後、従来のベースラインニューラルネットワーク(NN)アプローチと比較して、最大80.95%のローカライゼーション精度の向上を実現している。 あるいは、目標精度が約5mの場合、FeMLocはベースラインNNアプローチよりも82.21%高速である。 これにより、FeMLOCはトレーニングイテレーションを減らし、指紋データ収集とキャリブレーションの労力を大幅に削減できる。 さらに、FeMLocは拡張スケーラビリティを示し、新しい無線通信技術によって駆動される位置対応の大規模接続に適している。

The rapid growth of the Internet of Things fosters collaboration among connected devices for tasks like indoor localization. However, existing indoor localization solutions struggle with dynamic and harsh conditions, requiring extensive data collection and environment-specific calibration. These factors impede cooperation, scalability, and the utilization of prior research efforts. To address these challenges, we propose FeMLoc, a federated meta-learning framework for localization. FeMLoc operates in two stages: (i) collaborative meta-training where a global meta-model is created by training on diverse localization datasets from edge devices. (ii) Rapid adaptation for new environments, where the pre-trained global meta-model initializes the localization model, requiring only minimal fine-tuning with a small amount of new data. In this paper, we provide a detailed technical overview of FeMLoc, highlighting its unique approach to privacy-preserving meta-learning in the context of indoor localization. Our performance evaluation demonstrates the superiority of FeMLoc over state-of-the-art methods, enabling swift adaptation to new indoor environments with reduced calibration effort. Specifically, FeMLoc achieves up to 80.95% improvement in localization accuracy compared to the conventional baseline neural network (NN) approach after only 100 gradient steps. Alternatively, for a target accuracy of around 5m, FeMLoc achieves the same level of accuracy up to 82.21% faster than the baseline NN approach. This translates to FeMLoc requiring fewer training iterations, thereby significantly reducing fingerprint data collection and calibration efforts. Moreover, FeMLoc exhibits enhanced scalability, making it well-suited for location-aware massive connectivity driven by emerging wireless communication technologies.
翻訳日:2024-05-21 19:36:45 公開日:2024-05-17
# プロンプト回帰によるプロンプト探査

Prompt Exploration with Prompt Regression ( http://arxiv.org/abs/2405.11083v1 )

ライセンス: Link先を確認
Michael Feffer, Ronald Xu, Yuekai Sun, Mikhail Yurochkin, (参考訳) 大規模言語モデル (LLMs) の民主化利用の出現では、反復的試行錯誤を超えて、LCMの迅速な作成と選択プロセスを体系化したいという願望が高まっている。 先行研究は、プロンプト間の関係を考慮せずにプロンプトの空間の探索に重点を置いている。 本稿では,個別のプロンプト要素に対するプロンプト組み合わせの効果を予測するためのフレームワークであるPrompt Exploration with Prompt Regression(PEPR)と,与えられたユースケースに対して有効なプロンプトを選択する簡単な方法を提案する。 我々は,複数の異なるタスクに対して,異なるサイズのオープンソースLLMを用いてアプローチを評価した。

In the advent of democratized usage of large language models (LLMs), there is a growing desire to systematize LLM prompt creation and selection processes beyond iterative trial-and-error. Prior works majorly focus on searching the space of prompts without accounting for relations between prompt variations. Here we propose a framework, Prompt Exploration with Prompt Regression (PEPR), to predict the effect of prompt combinations given results for individual prompt elements as well as a simple method to select an effective prompt for a given use-case. We evaluate our approach with open-source LLMs of different sizes on several different tasks.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 多言語置換に基づく単語センス誘導

Multilingual Substitution-based Word Sense Induction ( http://arxiv.org/abs/2405.11086v1 )

ライセンス: Link先を確認
Denis Kokosinskii, Nikolay Arefyev, (参考訳) 単語センス誘導(WSI)は、この単語をこれらの感覚に対応するクラスタにグループ化することで、曖昧な単語の感覚を発見するタスクである。 英語や他のいくつかの言語でWSIを解決するために多くのアプローチが提案されたが、これらのアプローチは新しい言語に容易に適応できない。 多言語置換に基づくWSI法は,最小限あるいは無適応で,基礎となる多言語言語モデルによってカバーされる100言語のいずれかをサポートする。 多言語機能にもかかわらず、我々の手法は一般的な英語のWSIデータセットに対する既存のモノリンガルアプローチと同等に機能する。 同時に、これらは英語で利用可能な語彙リソースを欠く低リソースの言語にとって最も有用であり、WSIのような教師なしのメソッドに対する需要が高い。

Word Sense Induction (WSI) is the task of discovering senses of an ambiguous word by grouping usages of this word into clusters corresponding to these senses. Many approaches were proposed to solve WSI in English and a few other languages, but these approaches are not easily adaptable to new languages. We present multilingual substitution-based WSI methods that support any of 100 languages covered by the underlying multilingual language model with minimal to no adaptation required. Despite the multilingual capabilities, our methods perform on par with the existing monolingual approaches on popular English WSI datasets. At the same time, they will be most useful for lower-resourced languages which miss lexical resources available for English, thus, have higher demand for unsupervised methods like WSI.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 脱落したアルカリ気相細胞のウェハスケール製造

Wafer-scale fabrication of evacuated alkali vapor cells ( http://arxiv.org/abs/2405.11088v1 )

ライセンス: Link先を確認
Yang Li, Donggyu B. Sohn, Matthew Hummon, Susan Schima, John Kitching, (参考訳) 本報告では, アルカリ金属蒸気セルのウェハスケールアレイを低ガス圧で作製するプロセスについて述べる。 シリコンウェハ表面上のセル間の細長いチャネルをエッチングすることにより, 排ガス中の残留ガス圧を0.5 kPa (4 Torr) 以下に低減し, 収率を50%以上とした。 これらの大量生産可能なアルカリ気相セル内の低残留ガス圧力は、蒸気セル光時計、波長基準、およびライドバーグセンサーなどの低コストのチップスケール原子デバイスを新たに生成することができる。

We describe a process for fabricating a wafer-scale array of alkali metal vapor cells with low residual gas pressure. We show that by etching long, thin channels between the cells on the Si wafer surface, the residual gas pressure in the evacuated vapor cell can be reduced to below 0.5 kPa (4 Torr) with a yield above 50 %. The low residual gas pressure in these mass-producible alkali vapor cells can enable a new generation of low-cost chip-scale atomic devices such as vapor cell optical clocks, wavelength references, and Rydberg sensors.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# AudioSetMix:LLM支援によるオーディオ言語データセットの強化

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations ( http://arxiv.org/abs/2405.11093v1 )

ライセンス: Link先を確認
David Xu, (参考訳) 近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。 しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。 既存のオーディオ言語データセットは特に小さく、手動ラベリングは、正確なラベリングのために全オーディオクリップを聴く必要性によって妨げられる。 本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。 大規模言語モデルを用いて,プロンプトテンプレートを用いた拡張音声クリップの記述を生成する。 このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。 データセットの統合は、多彩で整合性の良いサンプルを提供することで、ベンチマーク上のモデルパフォーマンスを改善します。 特に、我々のデータセットは、既存のデータセットにおける修飾子(形容詞と副詞)の欠如に対処します。 モデルがこれらの概念を学習できるようにし、トレーニング中に厳しいネガティブな例を生成することで、複数のベンチマークで最先端のパフォーマンスを達成する。

Multi-modal learning in the audio-language domain has seen significant advancements in recent years. However, audio-language learning faces challenges due to limited and lower-quality data compared to image-language tasks. Existing audio-language datasets are notably smaller, and manual labeling is hindered by the need to listen to entire audio clips for accurate labeling. Our method systematically generates audio-caption pairs by augmenting audio clips with natural language labels and corresponding audio signal processing operations. Leveraging a Large Language Model, we generate descriptions of augmented audio clips with a prompt template. This scalable method produces AudioSetMix, a high-quality training dataset for text-and-audio related models. Integration of our dataset improves models performance on benchmarks by providing diversified and better-aligned examples. Notably, our dataset addresses the absence of modifiers (adjectives and adverbs) in existing datasets. By enabling models to learn these concepts, and generating hard negative examples during training, we achieve state-of-the-art performance on multiple benchmarks.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 平坦な1ビット確率勾配勾配:制御分散による圧縮分散最適化

Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance ( http://arxiv.org/abs/2405.11095v1 )

ライセンス: Link先を確認
Alexander Stollenwerk, Laurent Jacques, (参考訳) パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散確率勾配降下(SGD)のための新しいアルゴリズムを提案する。 平坦な1ビット確率勾配勾配(FO-SGD)と呼ばれる我々の勾配圧縮手法は、以下の2つの単純なアルゴリズムの考えに依存している。 一 ディザリングの技法を利用した一ビット量子化法及び (II) 量子化の前に確率勾配を平坦化するランダム化高速ウォルシュ・アダマール変換。 その結果、このスキームにおける真の勾配の近似は偏りがあるが、一ビット圧縮体制における分散の爆発、スパース勾配における性能の劣化、確率勾配の分布に対する制限的な仮定など、一般的に遭遇するアルゴリズム上の問題を防ぐことができる。 実際、軽度条件下でSGD様収束保証を示す。 この圧縮技術は、ワーカサーバ間通信の両方向に使用することができるため、完全な通信圧縮による分散最適化が可能である。

We propose a novel algorithm for distributed stochastic gradient descent (SGD) with compressed gradient communication in the parameter-server framework. Our gradient compression technique, named flattened one-bit stochastic gradient descent (FO-SGD), relies on two simple algorithmic ideas: (i) a one-bit quantization procedure leveraging the technique of dithering, and (ii) a randomized fast Walsh-Hadamard transform to flatten the stochastic gradient before quantization. As a result, the approximation of the true gradient in this scheme is biased, but it prevents commonly encountered algorithmic problems, such as exploding variance in the one-bit compression regime, deterioration of performance in the case of sparse gradients, and restrictive assumptions on the distribution of the stochastic gradients. In fact, we show SGD-like convergence guarantees under mild conditions. The compression technique can be used in both directions of worker-server communication, therefore admitting distributed optimization with full communication compression.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 大規模言語モデルは道徳的偽善であるか? : 道徳的基礎に基づく研究

Are Large Language Models Moral Hypocrites? A Study Based on Moral Foundations ( http://arxiv.org/abs/2405.11100v1 )

ライセンス: Link先を確認
José Luiz Nunes, Guilherme F. C. F. Almeida, Marcelo de Araujo, Simone D. J. Barbosa, (参考訳) 大規模言語モデル(LLM)は人工知能に関する議論の中心をなしている。 しかし、重要な人間の価値に対するLLMの適合性を評価する方法には、まだギャップがある。 本稿では,現在最先端のLCMであるGPT-4とClaude 2.1(Gemini ProとLAMA 2は有効ではない)が道徳的偽善であるかどうかを検討する。 モラル基礎理論に基づく2つの研究機器を採用。 一 抽象的道徳的判断にどの価値観が道徳的関係があるかを調べる道徳的基礎質問紙(MFQ) (II)モラル財団ヴィグネット(MFV)は,各モラル財団に関する具体的なシナリオにおいて,道徳的認知を評価する。 我々は、これらの異なる道徳的評価の抽象概念間の価値の対立を偽善として特徴づける。 両モデルとも,MFQの抽象的値とMFVの具体的な道徳的違反の評価とを比較した結果,両モデルが人間と比較して合理的に一致していることが判明した。

Large language models (LLMs) have taken centre stage in debates on Artificial Intelligence. Yet there remains a gap in how to assess LLMs' conformity to important human values. In this paper, we investigate whether state-of-the-art LLMs, GPT-4 and Claude 2.1 (Gemini Pro and LLAMA 2 did not generate valid results) are moral hypocrites. We employ two research instruments based on the Moral Foundations Theory: (i) the Moral Foundations Questionnaire (MFQ), which investigates which values are considered morally relevant in abstract moral judgements; and (ii) the Moral Foundations Vignettes (MFVs), which evaluate moral cognition in concrete scenarios related to each moral foundation. We characterise conflicts in values between these different abstractions of moral evaluation as hypocrisy. We found that both models displayed reasonable consistency within each instrument compared to humans, but they displayed contradictory and hypocritical behaviour when we compared the abstract values present in the MFQ to the evaluation of concrete moral violations of the MFV.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# LLMに基づくマルチエージェント強化学習の現状と今後の方向性

LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions ( http://arxiv.org/abs/2405.11106v1 )

ライセンス: Link先を確認
Chuanneng Sun, Songjun Huang, Dario Pompili, (参考訳) 近年,Large Language Models (LLM) は,質問応答,算術的問題解決,詩文など,様々なタスクにおいて優れた能力を発揮している。 LLM-as-an-agentの研究は、LLMを強化学習(RL)に適用し、良好な結果が得られることを示したが、LLM-based RL to Multi-Agent System(MAS)の拡張は、エージェント間の協調やコミュニケーションといった多くの側面が単一のエージェントのRLフレームワークでは考慮されていないため、簡単ではない。 LLMをベースとしたMARLのさらなる研究を促すため,本論文では,既存のLLMベースのシングルエージェントとマルチエージェントRLフレームワークを調査し,今後の研究の方向性について検討する。 特に、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。 また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。

In recent years, Large Language Models (LLMs) have shown great abilities in various tasks, including question answering, arithmetic problem solving, and poem writing, among others. Although research on LLM-as-an-agent has shown that LLM can be applied to Reinforcement Learning (RL) and achieve decent results, the extension of LLM-based RL to Multi-Agent System (MAS) is not trivial, as many aspects, such as coordination and communication between agents, are not considered in the RL frameworks of a single agent. To inspire more research on LLM-based MARL, in this letter, we survey the existing LLM-based single-agent and multi-agent RL frameworks and provide potential research directions for future research. In particular, we focus on the cooperative tasks of multiple agents with a common goal and communication among them. We also consider human-in/on-the-loop scenarios enabled by the language component in the framework.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# ユーザ識別のための透かし付き言語モデルの強化

Enhancing Watermarked Language Models to Identify Users ( http://arxiv.org/abs/2405.11109v1 )

ライセンス: Link先を確認
Aloni Cohen, Alexander Hoover, Gabe Schoenbach, (参考訳) ゼロビット透かし言語モデルは、基礎となるモデルと区別できないテキストを生成するが、シークレットキーを使用してマシン生成として検出できる。 しかし、透かしの付いたAIが生成するスパムを検知するだけでは、将来の乱用を防げないかもしれない。 さらに、テキストをスパムのAPIトークンにトレースできれば、モデルへのアクセスを遮断できるでしょう。 モデル生成したテキストを個人や衝突したユーザのグループにトレースするマルチユーザ透かしを導入する。 検出不能なゼロビット透かし方式からマルチユーザ透かし方式を構築する。 重要なことは、我々のスキームはゼロビットとマルチユーザー保証の両方を同時に提供し、短いスニペットとオリジナルのスキームを検知し、個人への長い抜粋をトレースする。 その過程で、長文を生成テキストに埋め込む透かしスキームの汎用的な構築について述べる。 言語モデルのウォーターマーキングスキーム間での最初のブラックボックス削減です。 ブラックボックス削減の大きな課題は、マークされたテキストが編集後に検出可能な、堅牢性のための統一された抽象化が欠如していることだ。既存の作業は、言語モデルの出力とユーザの編集に対する好ましくない要求に基づいて、互換性のない堅牢性を保証する。我々はこの課題を克服するために、新しい抽象化 -- AEB-robustness -- を導入している。 AEB-robustnessは、編集されたテキストがモデル生成出力の「十分なブロック」を承認するたびに、透かしを検出できる。 堅牢性条件を指定することは、近似、十分、ブロックを定義することにつながる。 新しい抽象化を用いることで、構造体のロバスト性と基礎となるゼロビットスキームのロバスト性を関連付ける。 事前の作業では、単一のプロンプトに応答して生成された1つのテキストに対してロバスト性しか保証されていないが、我々のスキームは適応的なプロンプトに対して堅牢である。

A zero-bit watermarked language model produces text that is indistinguishable from that of the underlying model, but which can be detected as machine-generated using a secret key. But merely detecting AI-generated spam, say, as watermarked may not prevent future abuses. If we could additionally trace the text to a spammer's API token, we could then cut off their access to the model. We introduce multi-user watermarks, which allow tracing model-generated text to individuals or to groups of colluding users. We construct multi-user watermarking schemes from undetectable zero-bit watermarking schemes. Importantly, our schemes provide both zero-bit and multi-user assurances at the same time: detecting shorter snippets as well as the original scheme and tracing longer excerpts to individuals. Along the way, we give a generic construction of a watermarking scheme that embeds long messages into generated text. Ours are the first black-box reductions between watermarking schemes for language models. A major challenge for black-box reductions is the lack of a unified abstraction for robustness -- that marked text is detectable after edits. Existing works give incomparable robustness guarantees, based on bespoke requirements on the language model's outputs and the users' edits. We introduce a new abstraction -- AEB-robustness -- to overcome this challenge. AEB-robustness provides that the watermark is detectable whenever the edited text "approximates enough blocks" of model-generated output. Specifying the robustness condition amounts to defining approximates, enough, and blocks. Using our new abstraction, we relate the robustness properties of our constructions to that of the underlying zero-bit scheme. Whereas prior works only guarantee robustness for a single text generated in response to a single prompt, our schemes are robust against adaptive prompting, a stronger adversarial model.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 野生生物の再同定による理解の促進

Enhancing Understanding Through Wildlife Re-Identification ( http://arxiv.org/abs/2405.11112v1 )

ライセンス: Link先を確認
J. Buitenhuis, (参考訳) 我々は,NumPy,Kerasを用いたDCNN,およびLightGBMを用いた2値分類器をスクラッチから実装することにより,野生生物の再同定の分野を探究する。 複数のデータセット上で複数のモデルのパフォーマンスを分析する。 野生生物の再同定のための計量学習における先行研究を再現しようと試みる。 まず、分類のために訓練されたMLPを除去し、次に出力層を除去し、第2の最終層を埋め込みとして使用することは、類似した学習戦略としては成功しなかったことが判明し、三重項損失のような埋め込みのために設計された損失が要求される。 DCNNSはいくつかのデータセットでは良好に動作したが、他のデータセットではうまく動作しなかった。 LightGBM分類器は過度に過度に適合しており、精度を基準として全てのペアを訓練・評価する際には定型モデルよりも大幅に優れていなかった。 使用した技術的実装は、ドキュメントの例と特定のデータセットのよい結果との比較によって、標準と一致しているように思われる。 しかし、過去の文学を完全に再現できることについては、まだ探究する余地が残っている。

We explore the field of wildlife re-identification by implementing an MLP from scratch using NumPy, A DCNN using Keras, and a binary classifier with LightGBM for the purpose of learning for an assignment. Analyzing the performance of multiple models on multiple datasets. We attempt to replicate prior research in metric learning for wildlife re-identification. Firstly, we find that the usage of MLPs trained for classification, then removing the output layer and using the second last layer as an embedding was not a successful strategy for similar learning; it seems like losses designed for embeddings such as triplet loss are required. The DCNNS performed well on some datasets but poorly on others, which did not align with findings in previous literature. The LightGBM classifier overfitted too heavily and was not significantly better than a constant model when trained and evaluated on all pairs using accuracy as a metric. The technical implementations used seem to match standards according to comparisons with documentation examples and good results on certain datasets. However, there is still more to explore in regards to being able to fully recreate past literature.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# タスク指向プロンプトによる動的埋め込み

Dynamic Embeddings with Task-Oriented prompting ( http://arxiv.org/abs/2405.11117v1 )

ライセンス: Link先を確認
Allmin Balloccu, Jack Zhang, (参考訳) 本稿では、フレキシブルな埋め込み層を実装することで機械学習モデルの適応性と効率を向上させることを目的とした新しいアプローチであるDETOT(Dynamic Embeddings with Task-Oriented prompting)を紹介する。 従来の静的な埋め込み(14)とは異なり、DETOTはタスク固有の要件とパフォーマンスフィードバックに基づいて埋め込みを動的に調整し、個々のタスクに対して入力データ表現を最適化します [4]。 この方法は、各タスクのユニークなニーズを満たすように表現層を調整することで、精度と計算性能を両立させる。 DETOTの構造は詳細であり、タスク固有の適応、継続的なフィードバックループ、過度な適合を防ぐメカニズムを強調している。 経験的評価は既存の方法よりも優れていることを示す。

This paper introduces Dynamic Embeddings with Task-Oriented prompting (DETOT), a novel approach aimed at improving the adaptability and efficiency of machine learning models by implementing a flexible embedding layer. Unlike traditional static embeddings [14], DETOT dynamically adjusts embeddings based on task-specific requirements and performance feedback, optimizing input data representation for individual tasks [4]. This method enhances both accuracy and computational performance by tailoring the representation layer to meet the unique needs of each task. The structure of DETOT is detailed, highlighting its task-specific adaptation, continuous feedback loop, and mechanisms for preventing overfitting. Empirical evaluations demonstrate its superiority over existing methods.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 潜時状態推定はUIエージェントの推論を助ける

Latent State Estimation Helps UI Agents to Reason ( http://arxiv.org/abs/2405.11120v1 )

ライセンス: Link先を確認
William E Bishop, Alice Li, Christopher Rawles, Oriana Riva, (参考訳) 現実の環境で活動するエージェントの一般的な問題は、環境の行動に対する応答が非決定論的であり、ノイズを通して観察されることである。 これにより、環境状態とタスクの完了に向けた進捗が引き起こされる。 LLMの様々なベンチマークにおける推論能力に関する最近の印象的な実証にもかかわらず、LCMが潜在状態の推定を構築でき、推論のためにそれらを活用できるかどうかは明らかに研究されていない。 自律型UIエージェントの現実領域におけるこの問題について検討する。 我々は,ゼロショット方式でLLMを適切に推進することは,テキスト空間における潜在状態の点推定として正式に理解できることを確認した。 自律UIエージェントの文脈では、この方法で使用されるLCMは、実行された(vs. command)アクションやタスクの進行など、潜在状態のさまざまな側面を推測する精度が76\%以上であることを示す。 公的および内部ベンチマークと3つの推論手法(ゼロショット, CoT-SC & ReAct)を用いて, 潜伏状態について明示的に推定および推論を行うLLMエージェントが, 実行しないものよりも最大1.6倍のタスクを完了可能であることを示す。

A common problem for agents operating in real-world environments is that the response of an environment to their actions may be non-deterministic and observed through noise. This renders environmental state and progress towards completing a task latent. Despite recent impressive demonstrations of LLM's reasoning abilities on various benchmarks, whether LLMs can build estimates of latent state and leverage them for reasoning has not been explicitly studied. We investigate this problem in the real-world domain of autonomous UI agents. We establish that appropriately prompting LLMs in a zero-shot manner can be formally understood as forming point estimates of latent state in a textual space. In the context of autonomous UI agents we then show that LLMs used in this manner are more than $76\%$ accurate at inferring various aspects of latent state, such as performed (vs. commanded) actions and task progression. Using both public and internal benchmarks and three reasoning methods (zero-shot, CoT-SC & ReAct), we show that LLM-powered agents that explicitly estimate and reason about latent state are able to successfully complete up to 1.6x more tasks than those that do not.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 新型コロナウイルスのUnequal Toll:モビリティデータを用いた米国大都市圏のエスノラックスに関する小企業影響格差の評価

COVID-19's Unequal Toll: An assessment of small business impact disparities with respect to ethnorace in metropolitan areas in the US using mobility data ( http://arxiv.org/abs/2405.11121v1 )

ライセンス: Link先を確認
Saad Mohammad Abrar, Kazi Tasnim Zinat, Naman Awasthi, Vanessa Frias-Martinez, (参考訳) パンデミックの初期に、郡や州は、国家の封鎖や在宅勤務戦略といった移動性に焦点を当てた様々な非薬物学的介入(NPI)を実行した。 これらの制限により、ビジネスは深刻な影響を受け、特に小さな都市部のレストランビジネスが影響を受けていた。 それに加えて、COVID-19は我々の社会に存在する社会経済的格差や体系的な人種的不平等の多くを増幅した。 本研究の目的は、新型コロナウイルスのパンデミックとそれに伴う移動制限に伴う小都市部のレストラン訪問パターンの変化について調べ、また、影響と回復の不平等を理解するために、人種・民族間の潜在的な格差を明らかにすることである。 特に2つの主な目的は 1)パンデミック前のベースラインと比較して、米国大都市圏のレストラン訪問パターンの全体的変化を分析すること。 2) アジア系, 黒人系, ヒスパニック系, 白人系, インディアン系の人口が多数を占める国勢調査ブロック群における来訪パターンの変化の差異を調べた。 SafeGraphから収集した携帯電話データを用いて,小都市部におけるレストランの来店パターンの全体的変化を,Census Block Groupsの粒度における人種構成について報告した。 以上の結果から,パンデミック後の来訪パターンの低下,回復の遅さが示唆された。 可視化と統計分析により、アジア圏の小都市部では訪問パターンの減少が最も高いことが判明した。

Early in the pandemic, counties and states implemented a variety of non-pharmacological interventions (NPIs) focused on mobility, such as national lockdowns or work-from-home strategies, as it became clear that restricting movement was essential to containing the epidemic. Due to these restrictions, businesses were severely affected and in particular, small, urban restaurant businesses. In addition to that, COVID-19 has also amplified many of the socioeconomic disparities and systemic racial inequities that exist in our society. The overarching objective of this study was to examine the changes in small urban restaurant visitation patterns following the COVID-19 pandemic and associated mobility restrictions, as well as to uncover potential disparities across different racial/ethnic groups in order to understand inequities in the impact and recovery. Specifically, the two key objectives were: 1) to analyze the overall changes in restaurant visitation patterns in US metropolitan areas during the pandemic compared to a pre-pandemic baseline, and 2) to investigate differences in visitation pattern changes across Census Block Groups with majority Asian, Black, Hispanic, White, and American Indian populations, identifying any disproportionate effects. Using aggregated geolocated cell phone data from SafeGraph, we document the overall changes in small urban restaurant businesses' visitation patterns with respect to racial composition at a granularity of Census Block Groups. Our results show clear indications of reduced visitation patterns after the pandemic, with slow recoveries. Via visualizations and statistical analyses, we show that reductions in visitation patterns were the highest for small urban restaurant businesses in majority Asian neighborhoods.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# AdaWaveNet:時系列解析のための適応ウェーブレットネットワーク

AdaWaveNet: Adaptive Wavelet Network for Time Series Analysis ( http://arxiv.org/abs/2405.11124v1 )

ライセンス: Link先を確認
Han Yu, Peikun Guo, Akane Sano, (参考訳) 時系列データ分析は、金融、医療、気象学といった様々な分野において重要な要素である。 時系列解析の深層学習の進展にもかかわらず、時系列データの非定常的な性質に対処するには依然として課題がある。 時間とともに一定の統計的性質を仮定して構築される伝統的なモデルは、しばしば現実的な時系列における時間的ダイナミクスを捉えるのに苦労し、その結果、時系列解析におけるバイアスとエラーが発生する。 本稿では,非定常時系列データのマルチスケール解析に適応ウェーブレット変換を用いる新しいアプローチであるAdaptive Wavelet Network(AdaWaveNet)を紹介する。 AdaWaveNetは、適応性と学習可能なウェーブレット変換のためのリフトスキームに基づくウェーブレット分解と構築機構を設計し、解析の柔軟性と堅牢性を高めた。 我々は、予測、計算、新たに確立された超解像タスクを含む3つのタスクにまたがる10のデータセットに関する広範な実験を行った。 これらの評価は,AdaWaveNetが既存の3つのタスクに対して有効であることを示すものである。

Time series data analysis is a critical component in various domains such as finance, healthcare, and meteorology. Despite the progress in deep learning for time series analysis, there remains a challenge in addressing the non-stationary nature of time series data. Traditional models, which are built on the assumption of constant statistical properties over time, often struggle to capture the temporal dynamics in realistic time series, resulting in bias and error in time series analysis. This paper introduces the Adaptive Wavelet Network (AdaWaveNet), a novel approach that employs Adaptive Wavelet Transformation for multi-scale analysis of non-stationary time series data. AdaWaveNet designed a lifting scheme-based wavelet decomposition and construction mechanism for adaptive and learnable wavelet transforms, which offers enhanced flexibility and robustness in analysis. We conduct extensive experiments on 10 datasets across 3 different tasks, including forecasting, imputation, and a newly established super-resolution task. The evaluations demonstrate the effectiveness of AdaWaveNet over existing methods in all three tasks, which illustrates its potential in various real-world applications.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 言語類似性の定量化に関する再現性調査:URIEL知識ベースにおける欠落値の影響

A Reproducibility Study on Quantifying Language Similarity: The Impact of Missing Values in the URIEL Knowledge Base ( http://arxiv.org/abs/2405.11125v1 )

ライセンス: Link先を確認
Hasti Toossi, Guo Qing Huai, Jinyu Liu, Eric Khiu, A. Seza Doğruöz, En-Shiun Annie Lee, (参考訳) 世界中の言語をサポートするために、言語の性質を特徴づけるツールが、既存の多言語NLP研究の拡大に重要な役割を果たしている。 本研究では,言語情報を数値ベクトルに集約する汎用型知識ベースであるURIELに着目した。 具体的には、URIELによる言語類似性の定量化におけるアプローチの健全性と再現性について検討する。 解析の結果,言語距離の計算や欠落した値の処理におけるURIELの曖昧さが明らかになった。 さらに, URIELは, データベースの信頼性, 特に低リソース言語に対する信頼性を損なうものとして, 表現する言語の31.5%に対して, タイプ的特徴に関する情報を提供していないことがわかった。 我々の文献レビューでは、URIELとlang2vecは多様なNLPタスクに関する論文で使われており、これらの作業の有効性はツールが提供する情報の信頼性に依存するため、データベースを厳格に検証する動機となっている。

In the pursuit of supporting more languages around the world, tools that characterize properties of languages play a key role in expanding the existing multilingual NLP research. In this study, we focus on a widely used typological knowledge base, URIEL, which aggregates linguistic information into numeric vectors. Specifically, we delve into the soundness and reproducibility of the approach taken by URIEL in quantifying language similarity. Our analysis reveals URIEL's ambiguity in calculating language distances and in handling missing values. Moreover, we find that URIEL does not provide any information about typological features for 31\% of the languages it represents, undermining the reliabilility of the database, particularly on low-resource languages. Our literature review suggests URIEL and lang2vec are used in papers on diverse NLP tasks, which motivates us to rigorously verify the database as the effectiveness of these works depends on the reliability of the information the tool provides.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 拡散モデルを用いたフレキシブル・モーション・イン・ザ・ビートワイニング (特集 フレキシブル・モーション・イン・ザ・フュージョン)

Flexible Motion In-betweening with Diffusion Models ( http://arxiv.org/abs/2405.11126v1 )

ライセンス: Link先を確認
Setareh Cohan, Guy Tevet, Daniele Reda, Xue Bin Peng, Michiel van de Panne, (参考訳) キャラクターアニメーションの基本的なタスクであるMotion in-betweeningは、ユーザが提供するキーフレームの制約を確実に補間するモーションシーケンスを生成する。 それは長年、労働集約的で挑戦的なプロセスとして認識されてきた。 キーフレームによって誘導される多様な人間の動きを生成する際の拡散モデルの可能性について検討する。 従来のインベントワイニング手法と異なり,ユーザ指定空間制約の柔軟な範囲に適合する高精度かつ多種多様な動作を生成できるシンプルな統一モデルと,テキストコンディショニングを提案する。 そこで本研究では,任意の高密度あるいはスパースなキーフレーム配置と部分的キーフレーム制約を実現するための条件付きモーション拡散インベットワイニング(CondMDI)を提案する。 テキスト条件付きHumanML3Dデータセット上でのCondMDIの性能を評価し,キーフレーム間の拡散モデルの有効性と有効性を示す。 さらに、推論時キーフレーミングにおけるガイダンスと命令に基づくアプローチの利用について検討し、これらの手法と比較する。

Motion in-betweening, a fundamental task in character animation, consists of generating motion sequences that plausibly interpolate user-provided keyframe constraints. It has long been recognized as a labor-intensive and challenging process. We investigate the potential of diffusion models in generating diverse human motions guided by keyframes. Unlike previous inbetweening methods, we propose a simple unified model capable of generating precise and diverse motions that conform to a flexible range of user-specified spatial constraints, as well as text conditioning. To this end, we propose Conditional Motion Diffusion In-betweening (CondMDI) which allows for arbitrary dense-or-sparse keyframe placement and partial keyframe constraints while generating high-quality motions that are diverse and coherent with the given keyframes. We evaluate the performance of CondMDI on the text-conditioned HumanML3D dataset and demonstrate the versatility and efficacy of diffusion models for keyframe in-betweening. We further explore the use of guidance and imputation-based approaches for inference-time keyframing and compare CondMDI against these methods.
翻訳日:2024-05-21 19:27:00 公開日:2024-05-17
# 深部ニューラルネットワークの注意機構におけるデータインフォームドグローバルスパースネス

Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks ( http://arxiv.org/abs/2012.02030v3 )

ライセンス: Link先を確認
Ileana Rugina, Rumen Dangovski, Li Jing, Preslav Nakov, Marin Soljačić, (参考訳) 注意機構は自然言語処理(NLP)の神経革命において重要な役割を担っている。 注意に基づくモデルの成長に伴い、スパース性を識別し活用するためにいくつかのプルーニング技術が開発され、これらのモデルはより効率的になった。 ほとんどの取り組みは、トレーニングデータに基づいて、ハードコーディングの注意パターンや注目の重み付けに重点を置いています。 本研究では,アテンション・プルーニング(Attention Pruning,AP)を提案する。 APは、言語モデリングの注意計算の90%を節約し、機械翻訳とGLUEタスクの約50%を節約し、結果の品質を維持している。 本手法は,今後のNLP研究を導く上で,自己と横断的なパターンの区別を重要視する。 我々のフレームワークは、既存のNLPアプリケーションや新しいNLPアプリケーションの改善モデルの開発を支援するため、あらゆる注意ベースのモデルのレイテンシとメモリ要求の両方を削減することができる。 我々は、Triton GPUカーネルを使用したエンコーダと自動回帰トランスフォーマーモデルでこれを実証し、コードをhttps://github.com/irugina/AP.comで公開しました。

Attention mechanisms play a crucial role in the neural revolution of Natural Language Processing (NLP). With the growth of attention-based models, several pruning techniques have been developed to identify and exploit sparseness, making these models more efficient. Most efforts focus on hard-coding attention patterns or pruning attention weights based on training data. We propose Attention Pruning (AP), a framework that observes attention patterns in a fixed dataset and generates a global sparseness mask. AP saves 90% of attention computation for language modeling and about 50% for machine translation and GLUE tasks, maintaining result quality. Our method reveals important distinctions between self- and cross-attention patterns, guiding future NLP research. Our framework can reduce both latency and memory requirements for any attention-based model, aiding in the development of improved models for existing or new NLP applications. We have demonstrated this with encoder and autoregressive transformer models using Triton GPU kernels and make our code publicly available at https://github.com/irugina/AP.
翻訳日:2024-05-20 20:59:25 公開日:2024-05-17
# 量子特異値変換による複素振幅の非線形変換

Nonlinear transformation of complex amplitudes via quantum singular value transformation ( http://arxiv.org/abs/2107.10764v2 )

ライセンス: Link先を確認
Naixu Guo, Kosuke Mitarai, Keisuke Fujii, (参考訳) 量子演算の線形性のため、量子コンピュータに非線形変換を実装することは簡単ではなく、ニューラルネットワークのような実用的なタスクを達成できない。 本研究では、複素振幅の非線形変換と呼ばれるタスクを定義し、このタスクを実現するアルゴリズムを提供する。 具体的には、状態準備単位から複素振幅のブロックエンコーディングを構築する。 これにより、量子特異値変換を用いて複素振幅を変換できる。 我々は,入力次元と精度の面で要求されるオーバーヘッドを評価し,このアルゴリズムが入力次元の略2乗根に依存することを明らかにし,従来よりも精度の指数的な高速化を実現する。 また,古典的あるいは量子的データを符号化する複雑な振幅を,提案手法により処理する量子機械学習への応用についても論じる。 本稿では、量子力学において本質的に欠落している量子状態の高度に複雑な非線形性を導入するための有望な方法を提供する。

Due to the linearity of quantum operations, it is not straightforward to implement nonlinear transformations on a quantum computer, making some practical tasks like a neural network hard to be achieved. In this work, we define a task called nonlinear transformation of complex amplitudes and provide an algorithm to achieve this task. Specifically, we construct a block-encoding of complex amplitudes from a state preparation unitary. This allows us to transform the complex amplitudes by using quantum singular value transformation. We evaluate the required overhead in terms of input dimension and precision, which reveals that the algorithm depends on the roughly square root of input dimension and achieves an exponential speedup on precision compared with previous work. We also discuss its possible applications to quantum machine learning, where complex amplitudes encoding classical or quantum data are processed by the proposed method. This paper provides a promising way to introduce highly complex nonlinearity of the quantum states, which is essentially missing in quantum mechanics.
翻訳日:2024-05-20 20:59:25 公開日:2024-05-17
# ZXダイアグラムの添加と分化

Addition and Differentiation of ZX-diagrams ( http://arxiv.org/abs/2202.11386v5 )

ライセンス: Link先を確認
Emmanuel Jeandel, Simon Perdrix, Margarita Veshchezerova, (参考訳) ZX計算は量子コンピューティングの推論のための強力なフレームワークである。 特に、興味の行列のコンパクトな表現を提供する。 ZX-積分の特異な性質は、任意のZX-ダイアグラムの線型結合を可能にする形式的な和が存在しないことである。 しかし、形式主義の普遍性は、任意の2つのZX-ダイアグラムに対して、それらの解釈の和はZX-ダイアグラムで表せることを保証している。 制御図形の構成に頼って、ZX-ダイアグラムの追加に関する一般帰納的定義を導入する。 この付加手法に基づき、ZX-ダイアグラムの誘導微分を与える。 実際、その角の記述に変数を持つZX-ダイアグラムが与えられたとき、これらの変数の1つに従ってダイアグラムを区別することができる。 微分は量子力学や量子コンピューティング(例えば最適化問題の解法)においてユビキタスである。 技術的には、ZX-ダイアグラムの微分は、製品規則で見られる和に強く関係している。 また、変数の分離に基づくというよりも、別の非帰納的微分手法も導入する。 最後に、結果を適用してイジング・ハミルトニアンの図形を導出する。

The ZX-calculus is a powerful framework for reasoning in quantum computing. It provides in particular a compact representation of matrices of interests. A peculiar property of the ZX-calculus is the absence of a formal sum allowing the linear combinations of arbitrary ZX-diagrams. The universality of the formalism guarantees however that for any two ZX-diagrams, the sum of their interpretations can be represented by a ZX-diagram. We introduce a general, inductive definition of the addition of ZX-diagrams, relying on the construction of controlled diagrams. Based on this addition technique, we provide an inductive differentiation of ZX-diagrams. Indeed, given a ZX-diagram with variables in the description of its angles, one can differentiate the diagram according to one of these variables. Differentiation is ubiquitous in quantum mechanics and quantum computing (e.g. for solving optimization problems). Technically, differentiation of ZX-diagrams is strongly related to summation as witnessed by the product rules. We also introduce an alternative, non inductive, differentiation technique rather based on the isolation of the variables. Finally, we apply our results to deduce a diagram for an Ising Hamiltonian.
翻訳日:2024-05-20 20:59:25 公開日:2024-05-17
# RescueNet: 自然災害評価のための高分解能UAVセマンティックセマンティックセグメンテーションベンチマークデータセット

RescueNet: A High Resolution UAV Semantic Segmentation Benchmark Dataset for Natural Disaster Damage Assessment ( http://arxiv.org/abs/2202.12361v4 )

ライセンス: Link先を確認
Maryam Rahnemoonfar, Tashnim Chowdhury, Robin Murphy, (参考訳) 近年のコンピュータビジョンと深層学習技術の進歩は、現場理解の顕著な進歩を助長し、救助隊の正確な被害評価を支援している。 本稿では,詳細な分類とセマンティックセグメンテーションアノテーションを含む,厳密にキュレートされたディスカスター後の高分解能データセットであるRescueNetを提案する。 このデータセットは、自然災害の余波における総合的な景観理解を促進することを目的としている。 RescueNetは、複数の衝突地域から無人航空機(UAV)を用いて得られたハリケーン・マイケルの後に収集された災害後の画像を含んでいる。 RescueNetのユニークな点は、各画像に対する包括的なアノテーションを伴って、高解像度の事後画像を提供することにある。 建物のような特定のシーン要素に限定したアノテーションを提供する既存のデータセットとは異なり、RescueNetは建物、道路、プール、木などを含むすべてのクラスに対してピクセルレベルのアノテーションを提供する。 さらに,RescueNetに最先端セグメンテーションモデルを導入し,災害災害評価のための既存手法の強化にその価値を示すことにより,データセットの有用性を評価する。

Recent advancements in computer vision and deep learning techniques have facilitated notable progress in scene understanding, thereby assisting rescue teams in achieving precise damage assessment. In this paper, we present RescueNet, a meticulously curated high-resolution post-disaster dataset that includes detailed classification and semantic segmentation annotations. This dataset aims to facilitate comprehensive scene understanding in the aftermath of natural disasters. RescueNet comprises post-disaster images collected after Hurricane Michael, obtained using Unmanned Aerial Vehicles (UAVs) from multiple impacted regions. The uniqueness of RescueNet lies in its provision of high-resolution post-disaster imagery, accompanied by comprehensive annotations for each image. Unlike existing datasets that offer annotations limited to specific scene elements such as buildings, RescueNet provides pixel-level annotations for all classes, including buildings, roads, pools, trees, and more. Furthermore, we evaluate the utility of the dataset by implementing state-of-the-art segmentation models on RescueNet, demonstrating its value in enhancing existing methodologies for natural disaster damage assessment.
翻訳日:2024-05-20 20:59:25 公開日:2024-05-17
# SchrödingerのFP:ディープラーニング学習のための浮動小数点コンテナの動的適応

Schrödinger's FP: Dynamic Adaptation of Floating-Point Containers for Deep Learning Training ( http://arxiv.org/abs/2204.13666v2 )

ライセンス: Link先を確認
Miloš Nikolić, Enrique Torres Sanchez, Jiahui Wang, Ali Hadi Zadeh, Mostafa Mahmoud, Ameer Abdelhadi, Kareem Ibrahim, Andreas Moshovos, (参考訳) ニューラルネットワークトレーニング中のテンソルのメモリへの転送は、時間とエネルギーを支配している。 エネルギー効率と性能を改善するために、より狭いデータ表現を使用する方法を模索している。 これまでのところ、これらの試みは収束を達成するためにユーザー指向の試行錯誤に依存していた。 ユーザをこの責任から遠ざける方法を提案する。 本手法は,3次元にまたがる適応性を達成し,運動時および重み付けに使用する浮動小数点容器のサイズと形状を動的に調整する。 i) 使用するデータの種類 二 どのテンソルで、かつ、 三 経年変化の仕方 指数とマンティッサの異なる意味と分布は、それぞれに調整されたアプローチをもたらします。 精度に影響を与えることなく、可能な限り多くのマティーサビットと指数ビットを除去する2つの損失対法を提案する。 量子マンティッサと量子指数(Quantum Mantissa and Quantum Exponent)は、勾配降下アルゴリズムをタップして、層ごとの粒度で最小のマンティッサと指数ビット長を学習する機械学習圧縮手法である。 彼らは多くのテンソルが1つか2つのマニサビットと3つか4つの指数ビットしか使えないことを自動的に学習する。 全体として、この2つの機械学習手法はフットプリントを4.74\times$に減らしている。 あるいは、BitWaveはトレーニング中の損失関数の変化を観察し、マティーサと指数ビット長をネットワーク全体に調整し、フットプリントを3.19\times$で削減する。 最後に,量子指数やビットウェーブから生じる指数を無害に圧縮し,平均して5.64\times$と4.56\times$に圧縮率を向上するために,自然に出現するロッドサイドの指数分布を利用するゲコ法を提案する。

The transfer of tensors from/to memory during neural network training dominates time and energy. To improve energy efficiency and performance, research has been exploring ways to use narrower data representations. So far, these attempts relied on user-directed trial-and-error to achieve convergence. We present methods that relieve users from this responsibility. Our methods dynamically adjust the size and format of the floating-point containers used for activations and weights during training, achieving adaptivity across three dimensions: i) which datatype to use, ii) on which tensor, and iii) how it changes over time. The different meanings and distributions of exponent and mantissas lead us to tailored approaches for each. We present two lossy pairs of methods to eliminate as many mantissa and exponent bits as possible without affecting accuracy. Quantum Mantissa and Quantum Exponent are machine learning compression methods that tap into the gradient descent algorithm to learn the minimal mantissa and exponent bitlengths on a per-layer granularity. They automatically learn that many tensors can use just 1 or 2 mantissa bits and 3 or 4 exponent bits. Overall, the two machine learning methods reduce the footprint by $4.74\times$. Alternatively, BitWave observes changes in the loss function during training to adjust mantissa and exponent bitlengths network-wide, yielding a $3.19\times$ reduction in footprint. Finally, we present an optional method, Gecko, to exploit the naturally emerging, lop-sided exponent distribution to losslessly compress resulting exponents from Quantum Exponent or BitWave and, on average, improve compression rates to $5.64\times$ and $4.56\times$.
翻訳日:2024-05-20 20:59:25 公開日:2024-05-17
# 複雑系のシミュレーションのための高精度サロゲートの効率的な学習

Efficient Learning of Accurate Surrogates for Simulations of Complex Systems ( http://arxiv.org/abs/2207.12855v3 )

ライセンス: Link先を確認
A. Diaw, M. McKerns, I. Sagert, L. G. Stanton, M. S. Murillo, (参考訳) 機械学習の手法は、複雑な物理モデルのための計算的に安価なサロゲートを構築するのにますます使われている。 これらのサロゲートの予測能力は、データがノイズ、スパース、時間に依存している場合に悩む。 将来的なモデル評価の有効な予測を提供するサロゲートの発見に関心があるので,最適化型サンプリングによるオンライン学習手法を提案する。 この方法は、現在のアプローチに対して2つの利点がある。 まず、モデル応答面上のすべての旋回点がトレーニングデータに含まれることを保証する。 第二に、新しいモデル評価の後、"スコア"が妥当性の閾値を下回ると、サロゲートがテストされ、"リトレーニング"(更新)される。 ベンチマーク関数の試験では、スコアリング基準が全体的な精度を好んでも、局所的極端付近の精度において、オプティマイザ指向サンプリングが従来のサンプリング手法よりも優れていることが示されている。 本手法を核物質のシミュレーションに適用し,核状態方程式の高精度なサロゲートを,いくつかのモデル評価を用いて高精度な計算から確実に自動生成できることを実証する。

Machine learning methods are increasingly used to build computationally inexpensive surrogates for complex physical models. The predictive capability of these surrogates suffers when data are noisy, sparse, or time-dependent. As we are interested in finding a surrogate that provides valid predictions of any potential future model evaluations, we introduce an online learning method empowered by optimizer-driven sampling. The method has two advantages over current approaches. First, it ensures that all turning points on the model response surface are included in the training data. Second, after any new model evaluations, surrogates are tested and "retrained" (updated) if the "score" drops below a validity threshold. Tests on benchmark functions reveal that optimizer-directed sampling generally outperforms traditional sampling methods in terms of accuracy around local extrema, even when the scoring metric favors overall accuracy. We apply our method to simulations of nuclear matter to demonstrate that highly accurate surrogates for the nuclear equation of state can be reliably auto-generated from expensive calculations using a few model evaluations.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# FOLIO: 一階論理による自然言語推論

FOLIO: Natural Language Reasoning with First-Order Logic ( http://arxiv.org/abs/2209.00840v2 )

ライセンス: Link先を確認
Simeng Han, Hailey Schoelkopf, Yilun Zhao, Zhenting Qi, Martin Riddell, Wenfei Zhou, James Coady, David Peng, Yujie Qiao, Luke Benson, Lucy Sun, Alex Wardle-Solano, Hannah Szabo, Ekaterina Zubova, Matthew Burtell, Jonathan Fan, Yixin Liu, Brian Wong, Malcolm Sailor, Ansong Ni, Linyong Nan, Jungo Kasai, Tao Yu, Rui Zhang, Alexander R. Fabbri, Wojciech Kryscinski, Semih Yavuz, Ye Liu, Xi Victoria Lin, Shafiq Joty, Yingbo Zhou, Caiming Xiong, Rex Ying, Arman Cohan, Dragomir Radev, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著なパフォーマンスを達成した。 しかし、既存のベンチマークはモデルの複雑な論理的推論能力を測定するのに不十分である。 我々は、自然言語(NL)における推論のための人間注釈付き、論理的に複雑で多様なデータセットであるFOLIOを、一階述語論理(FOL)アノテーションを備える。 FOLIOは1,430の例(一意の結論)で構成され、それぞれが487の前提のうちの1つと組み合わせて、それぞれの結論の妥当性を導出的に推論する。 前提と結論の論理的正しさはFOLアノテーションによって保証され、FOL推論エンジンによって自動的に検証される。 主要なNL推論タスクに加えて、FOLIOのNL-FOLペアは、新しいNL-FOL翻訳データセットを構成する。 FOLIOに関する実験は,中規模言語モデルにおける教師付き微調整のFOL推論能力を体系的に評価する。 NL推論とNL-FOL変換の両方において、複数の最先端言語モデルをベンチマークする。 以上の結果から,FOLIOのサブセットは,最も有能な言語モデル(LLM)の1つであるGPT-4の課題であることがわかった。

Large language models (LLMs) have achieved remarkable performance on a variety of natural language understanding tasks. However, existing benchmarks are inadequate in measuring the complex logical reasoning capabilities of a model. We present FOLIO, a human-annotated, logically complex and diverse dataset for reasoning in natural language (NL), equipped with first-order logic (FOL) annotations. FOLIO consists of 1,430 examples (unique conclusions), each paired with one of 487 sets of premises used to deductively reason for the validity of each conclusion. The logical correctness of the premises and conclusions is ensured by their FOL annotations, which are automatically verified by an FOL inference engine. In addition to the main NL reasoning task, NL-FOL pairs in FOLIO constitute a new NL-FOL translation dataset. Our experiments on FOLIO systematically evaluate the FOL reasoning ability of supervised fine-tuning on medium-sized language models. For both NL reasoning and NL-FOL translation, we benchmark multiple state-of-the-art language models. Our results show that a subset of FOLIO presents a challenge for one of the most capable {Large Language Model (LLM)} publicly available, GPT-4.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# ScionFL: 効率的でロバストなセキュアな量子化集約

ScionFL: Efficient and Robust Secure Quantized Aggregation ( http://arxiv.org/abs/2210.07376v3 )

ライセンス: Link先を確認
Yaniv Ben-Itzhak, Helen Möllering, Benny Pinkas, Thomas Schneider, Ajith Suresh, Oleksandr Tkachenko, Shay Vargaftik, Christian Weinert, Hossein Yalame, Avishay Yanai, (参考訳) セキュアアグリゲーションは、中央アグリゲータに関連するプライバシー上の懸念を緩和するために、連邦学習(FL)で一般的に使用される。 残念ながら、ほとんどの既存の安全なアグリゲーションスキームは、2つの重要な直交研究方向を無視している。 (i)クライアントサーバ間の通信を著しく削減し、 (ii)悪意のあるクライアントの影響を軽減すること。 しかし、これら2つの追加特性は、数千人あるいは数百万の(モバイル)参加者を持つデバイス間FLを促進するために必須である。 本稿では,量子化入力を効率的に操作し,悪意のあるクライアントに対してロバスト性を提供するFLの最初のセキュアアグリゲーションフレームワークであるScionFLを導入することにより,両研究の方向性を統一する。 我々のフレームワークは,マルチパーティ計算(MPC)技術を活用し,ランダム化アダマール変換やカシンの表現などを含む複数の線形(1ビット)量子化スキームをサポートする。 我々の理論結果は広範な評価によって支持されている。 クライアントのオーバーヘッドがなく、平文での量子化更新の転送や処理に比べてサーバのオーバーヘッドが緩やかなため、標準的なFLベンチマークでは同等の精度が得られます。 さらに,最先端の毒殺攻撃に対する我々の枠組みの堅牢性を示す。

Secure aggregation is commonly used in federated learning (FL) to alleviate privacy concerns related to the central aggregator seeing all parameter updates in the clear. Unfortunately, most existing secure aggregation schemes ignore two critical orthogonal research directions that aim to (i) significantly reduce client-server communication and (ii) mitigate the impact of malicious clients. However, both of these additional properties are essential to facilitate cross-device FL with thousands or even millions of (mobile) participants. In this paper, we unite both research directions by introducing ScionFL, the first secure aggregation framework for FL that operates efficiently on quantized inputs and simultaneously provides robustness against malicious clients. Our framework leverages (novel) multi-party computation (MPC) techniques and supports multiple linear (1-bit) quantization schemes, including ones that utilize the randomized Hadamard transform and Kashin's representation. Our theoretical results are supported by extensive evaluations. We show that with no overhead for clients and moderate overhead for the server compared to transferring and processing quantized updates in plaintext, we obtain comparable accuracy for standard FL benchmarks. Moreover, we demonstrate the robustness of our framework against state-of-the-art poisoning attacks.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# FutureHuman3D:ビデオ観察による複雑な3次元人間行動の予測

FutureHuman3D: Forecasting Complex Long-Term 3D Human Behavior from Video Observations ( http://arxiv.org/abs/2211.14309v3 )

ライセンス: Link先を確認
Christian Diller, Thomas Funkhouser, Angela Dai, (参考訳) 本稿では,3次元における長期的人間の行動を予測するための生成的アプローチを提案する。 これは多くのダウンストリームアプリケーションを可能にする基本的なタスクです。 必要な地道データは3D(モキャップスーツ、高価なセットアップ)で取得するのは難しいが、2D(シンプルなRGBカメラ)で取得するのは難しい。 そこで本手法では,3次元の動作シーケンスを生成できながら,推論時にのみ2次元RGBデータを必要とするように設計する。 弱い監督のために自己回帰方式で微分可能な2次元プロジェクション方式を用い、3次元正規化において逆方向の損失を生じさせる。 提案手法は,複数のサブアクションからなる長期かつ複雑な人間の行動系列(例えば,調理,組立)を予測する。 本研究では,高レベルの粗い行動ラベルと低レベルの微粒化を特徴的3次元人間のポーズとして共同で予測し,意味的に階層的な手法でこれに取り組む。 これら2つの行動表現が自然に結合していることが観察され、共同予測はアクションとポーズ予測の両方に利益がある。 共同動作の相補的な性質と3Dポーズの予測を実証し,各タスクを個別に処理し,より堅牢な長期シーケンス予測を実現し,行動予測と特徴的3Dポーズに対する代替アプローチを改善する。

We present a generative approach to forecast long-term future human behavior in 3D, requiring only weak supervision from readily available 2D human action data. This is a fundamental task enabling many downstream applications. The required ground-truth data is hard to capture in 3D (mocap suits, expensive setups) but easy to acquire in 2D (simple RGB cameras). Thus, we design our method to only require 2D RGB data at inference time while being able to generate 3D human motion sequences. We use a differentiable 2D projection scheme in an autoregressive manner for weak supervision, and an adversarial loss for 3D regularization. Our method predicts long and complex human behavior sequences (e.g., cooking, assembly) consisting of multiple sub-actions. We tackle this in a semantically hierarchical manner, jointly predicting high-level coarse action labels together with their low-level fine-grained realizations as characteristic 3D human poses. We observe that these two action representations are coupled in nature, and joint prediction benefits both action and pose forecasting. Our experiments demonstrate the complementary nature of joint action and 3D pose prediction: our joint approach outperforms each task treated individually, enables robust longer-term sequence prediction, and improves over alternative approaches to forecast actions and characteristic 3D poses.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# 重み付きガウス分布学習による語彙データの深部クラスタリング

Deep Clustering of Tabular Data by Weighted Gaussian Distribution Learning ( http://arxiv.org/abs/2301.00802v3 )

ライセンス: Link先を確認
Shourav B. Rabbani, Ivan V. Medri, Manar D. Samad, (参考訳) 深層学習法は主にクラスタリング問題に限定した画像やテキストの教師あり学習のために提案されている。 対照的に、不均一な特徴を持つ表形式のデータは、ディープラーニングが従来の機械学習に置き換わっていない表現学習において、ユニークな課題を生んでいる。 本稿では,自動エンコーダ遅延空間(G-CEALS)におけるガウスクラスタ埋め込み(Gaussian Cluster Embedding in Autoencoder Latent Space, G-CEALS)という,表型データのための最初のディープクラスタリング手法の開発における課題について述べる。 G-CEALSは、個別のクラスタ重みを反復的に更新することで、多変量ガウスクラスタ分布のパラメータを学習するための、教師なしのディープクラスタリングフレームワークである。 G-CEALS法は、クラスタリング精度に基づいて2.9(1.7)と2.8(1.7)の平均ランク順を示し、16の表付きデータセット上で調整されたRand index (ARI)スコアをそれぞれ調整し、9つの最先端クラスタリング法より優れている。 G-CEALS は従来の K-means や GMM に比べてクラスタリング性能が大幅に向上する。 計算的に効率的でハイパフォーマンスなディープクラスタリングフレームワークは、従来の機械学習よりも、表形式のデータにディープラーニングの無数の利点を享受するために不可欠である。

Deep learning methods are primarily proposed for supervised learning of images or text with limited applications to clustering problems. In contrast, tabular data with heterogeneous features pose unique challenges in representation learning, where deep learning has yet to replace traditional machine learning. This paper addresses these challenges in developing one of the first deep clustering methods for tabular data: Gaussian Cluster Embedding in Autoencoder Latent Space (G-CEALS). G-CEALS is an unsupervised deep clustering framework for learning the parameters of multivariate Gaussian cluster distributions by iteratively updating individual cluster weights. The G-CEALS method presents average rank orderings of 2.9(1.7) and 2.8(1.7) based on clustering accuracy and adjusted Rand index (ARI) scores on sixteen tabular data sets, respectively, and outperforms nine state-of-the-art clustering methods. G-CEALS substantially improves clustering performance compared to traditional K-means and GMM, which are still de facto methods for clustering tabular data. Similar computationally efficient and high-performing deep clustering frameworks are imperative to reap the myriad benefits of deep learning on tabular data over traditional machine learning.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# SO(3)-steerable convolutions for pose-robust semantic segmentation in 3D Medical data (特集 バイオサイバネティックスとバイオサイバネティックス)

Leveraging SO(3)-steerable convolutions for pose-robust semantic segmentation in 3D medical data ( http://arxiv.org/abs/2303.00351v3 )

ライセンス: Link先を確認
Ivan Diaz, Mario Geiger, Richard Iain McKinley, (参考訳) 畳み込みニューラルネットワーク(CNN)は、その線形層に畳み込みカーネルを使用することで、パラメータ共有と変換等価性を実現する。 これらのカーネルをSO(3)ステアブルに制限することにより、CNNはパラメータ共有をさらに改善することができる。 これらの回転等変畳み込み層は標準的な畳み込み層に対していくつかの利点があり、例えば、見えないポーズに対するロバスト性の向上、ネットワークサイズの縮小、サンプル効率の向上などである。 それにもかかわらず、医療画像解析で使用されるほとんどのセグメンテーションネットワークは、標準の畳み込みカーネルに依存し続けている。 本稿では,球面調和に基づく同変ボクセル畳み込みを用いたセグメンテーションネットワークを提案する。 これらのネットワークは、トレーニング中に見えないデータポーズに対して堅牢であり、トレーニング中にローテーションベースのデータ拡張を必要としない。 また,MRI脳腫瘍のセグメンテーション性能と健常な脳構造セグメンテーションタスクのセグメンテーション性能を向上し,トレーニングデータの量削減とパラメータ効率の向上を図った。 我々の結果を再現し、他のタスクのための同変セグメンテーションネットワークを実装するためのコードはhttp://github.com/SCAN-NRAD/e3nn_Unetで入手できる。

Convolutional neural networks (CNNs) allow for parameter sharing and translational equivariance by using convolutional kernels in their linear layers. By restricting these kernels to be SO(3)-steerable, CNNs can further improve parameter sharing. These rotationally-equivariant convolutional layers have several advantages over standard convolutional layers, including increased robustness to unseen poses, smaller network size, and improved sample efficiency. Despite this, most segmentation networks used in medical image analysis continue to rely on standard convolutional kernels. In this paper, we present a new family of segmentation networks that use equivariant voxel convolutions based on spherical harmonics. These networks are robust to data poses not seen during training, and do not require rotation-based data augmentation during training. In addition, we demonstrate improved segmentation performance in MRI brain tumor and healthy brain structure segmentation tasks, with enhanced robustness to reduced amounts of training data and improved parameter efficiency. Code to reproduce our results, and to implement the equivariant segmentation networks for other tasks is available at http://github.com/SCAN-NRAD/e3nn_Unet
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# 知覚マニフォールドの曲率によるDNNの公正性の予測と向上

Predicting and Enhancing the Fairness of DNNs with the Curvature of Perceptual Manifolds ( http://arxiv.org/abs/2303.12307v5 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Maoji Wen, Lingling Li, Wenping Ma, Shuyuan Yang, Xu Liu, Puhua Chen, (参考訳) 長い尾の分類の課題に対処するために、研究者はモデルバイアスを減らすいくつかのアプローチを提案しており、そのほとんどはサンプルが少ないクラスが弱いクラスであると仮定している。 しかし、最近の研究では、テールクラスは必ずしも学習が困難ではないことが示されており、サンプルバランスのデータセットではモデルバイアスが観察されており、モデルバイアスに影響を与える他の要因の存在が示唆されている。 本研究ではまず,モデルフェアネスを解析するための幾何学的視点を確立し,さらに深部ニューラルネットワークにおける知覚多様体の幾何的測度を体系的に提案する。 その後,知覚多様体の幾何学的特徴が分類難度および学習が知覚多様体の幾何学的特徴をどのように形成するかを包括的に検討した。 学習中にクラス精度と知覚多様体の分離度との相関が徐々に減少する一方、曲率との負の相関は徐々に増加し、曲率不均衡がモデルバイアスを引き起こすことが示唆される。 複数の長い尾のデータセットと非長い尾のデータセットの評価は、我々のアプローチの優れたパフォーマンスとエキサイティングな一般性を示している。 我々の研究は、モデルバイアスに関する幾何学的分析の視点を開き、非長い尾とサンプルバランスのデータセットのモデルバイアスに注意を払うよう研究者に促す。

To address the challenges of long-tailed classification, researchers have proposed several approaches to reduce model bias, most of which assume that classes with few samples are weak classes. However, recent studies have shown that tail classes are not always hard to learn, and model bias has been observed on sample-balanced datasets, suggesting the existence of other factors that affect model bias. In this work, we first establish a geometric perspective for analyzing model fairness and then systematically propose a series of geometric measurements for perceptual manifolds in deep neural networks. Subsequently, we comprehensively explore the effect of the geometric characteristics of perceptual manifolds on classification difficulty and how learning shapes the geometric characteristics of perceptual manifolds. An unanticipated finding is that the correlation between the class accuracy and the separation degree of perceptual manifolds gradually decreases during training, while the negative correlation with the curvature gradually increases, implying that curvature imbalance leads to model bias.Building upon these observations, we propose curvature regularization to facilitate the model to learn curvature-balanced and flatter perceptual manifolds. Evaluations on multiple long-tailed and non-long-tailed datasets show the excellent performance and exciting generality of our approach, especially in achieving significant performance improvements based on current state-of-the-art techniques. Our work opens up a geometric analysis perspective on model bias and reminds researchers to pay attention to model bias on non-long-tailed and even sample-balanced datasets.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# Q-HyViT:IoTシステムのためのブリッジブロック再構成によるハイブリッドビジョントランスのポストトレーニング量子化

Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems ( http://arxiv.org/abs/2303.12557v3 )

ライセンス: Link先を確認
Jemin Lee, Yongin Kwon, Sihyeong Park, Misun Yu, Jeman Park, Hwanjun Song, (参考訳) 近年、視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。 しかし、ViTsの高い計算要求は、その広範な実装を妨げる。 この問題に対処するため、研究者らは、畳み込み層と変圧器層を組み合わせた効率的なハイブリッドトランスフォーマーアーキテクチャを提案し、線形複雑性の最適化された注意計算を行った。 さらに、計算要求を緩和する手段として、後学習量子化法が提案されている。 モバイルデバイスでは、ViTの最適加速を達成するには、量子化技術と効率的なハイブリッドトランスフォーマー構造の戦略的統合が必要である。 しかし、効率的なハイブリッドトランスに量子化を適用した以前の研究はない。 本稿では,ViTの既存の学習後量子化(PTQ)手法をハイブリットトランスフォーマーに応用することで,次の4つの課題に起因して,大幅な精度低下につながることを明らかにする。 (i)非常にダイナミックな範囲 (ii)ゼロ点オーバーフロー (三)多彩な正規化、及び (4)限定モデルパラメータ($5M)。 これらの課題を克服するために,効率的なハイブリッドViT(MobileViTv1,MobileViTv2,Mobile-Former,EfficientFormerV1,EfficientFormerV2)を量子化する新しいポストトレーニング量子化法を提案する。 従来のPTQ法(EasyQuant, FQ-ViT, PTQ4ViT, RepQ-ViT)}と比較すると, 8ビットで17.73%, 6ビットで29.75%の大幅な改善を実現している。 コードをhttps://gitlab.com/ones-ai/q-hyvit.comでリリースする予定です。

Recently, vision transformers (ViTs) have superseded convolutional neural networks in numerous applications, including classification, detection, and segmentation. However, the high computational requirements of ViTs hinder their widespread implementation. To address this issue, researchers have proposed efficient hybrid transformer architectures that combine convolutional and transformer layers with optimized attention computation of linear complexity. Additionally, post-training quantization has been proposed as a means of mitigating computational demands. For mobile devices, achieving optimal acceleration for ViTs necessitates the strategic integration of quantization techniques and efficient hybrid transformer structures. However, no prior investigation has applied quantization to efficient hybrid transformers. In this paper, we discover that applying existing post-training quantization (PTQ) methods for ViTs to efficient hybrid transformers leads to a drastic accuracy drop, attributed to the four following challenges: (i) highly dynamic ranges, (ii) zero-point overflow, (iii) diverse normalization, and (iv) limited model parameters ($<$5M). To overcome these challenges, we propose a new post-training quantization method, which is the first to quantize efficient hybrid ViTs (MobileViTv1, MobileViTv2, Mobile-Former, EfficientFormerV1, EfficientFormerV2). We achieve a significant improvement of 17.73% for 8-bit and 29.75% for 6-bit on average, respectively, compared with existing PTQ methods (EasyQuant, FQ-ViT, PTQ4ViT, and RepQ-ViT)}. We plan to release our code at https://gitlab.com/ones-ai/q-hyvit.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# CT肺血管造影における肺塞栓症検出のための解剖学的二重ホップ学習

Anatomically aware dual-hop learning for pulmonary embolism detection in CT pulmonary angiograms ( http://arxiv.org/abs/2303.17593v2 )

ライセンス: Link先を確認
Florin Condrea, Saikiran Rapaka, Lucian Itu, Puneet Sharma, Jonathan Sperl, A Mohamed Ali, Marius Leordeanu, (参考訳) 肺塞栓症(PE)は心臓血管死の主要な原因である。 画像診断はCTPA (Computed tomographic lung angiography) を通し, PE診断における金の基準となっているが, 診断の誤診や診断遅延が著しいため, 重篤な症例では致命的と思われる。 近年の深層学習の力により、幅広い医療画像撮影タスクにおけるパフォーマンスが大幅に向上したにもかかわらず、自動肺塞栓症検出に関する研究は、まだほとんど発表されていない。 本稿では,CTPAにおける肺塞栓症検出のために,コンピュータビジョンとディープニューラルネットワークを効果的に組み合わせたディープラーニングベースのアプローチを提案する。 本手法は3つの直交軸に沿った新しい改善を特徴とする。 1)解剖学的構造の自動検出 2)解剖学的事前訓練 3)PE検出用デュアルホップディープニューラルネット。 我々は,一般公開されたマルチセンター大規模RSNAデータセットの最先端結果を得た。

Pulmonary Embolisms (PE) represent a leading cause of cardiovascular death. While medical imaging, through computed tomographic pulmonary angiography (CTPA), represents the gold standard for PE diagnosis, it is still susceptible to misdiagnosis or significant diagnosis delays, which may be fatal for critical cases. Despite the recently demonstrated power of deep learning to bring a significant boost in performance in a wide range of medical imaging tasks, there are still very few published researches on automatic pulmonary embolism detection. Herein we introduce a deep learning based approach, which efficiently combines computer vision and deep neural networks for pulmonary embolism detection in CTPA. Our method features novel improvements along three orthogonal axes: 1) automatic detection of anatomical structures; 2) anatomical aware pretraining, and 3) a dual-hop deep neural net for PE detection. We obtain state-of-the-art results on the publicly available multicenter large-scale RSNA dataset.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# Node機能拡張によるネットワークアライメントの仮想化

Node Feature Augmentation Vitaminizes Network Alignment ( http://arxiv.org/abs/2304.12751v4 )

ライセンス: Link先を確認
Jin-Duk Park, Cong Tran, Won-Yong Shin, Xin Cao, (参考訳) ネットワークアライメント(NA)は、複数のネットワークにまたがるノード対応を発見するタスクである。 NAメソッドは、無数のシナリオで顕著な成功を収めてきたが、その有効性には、プライバシの懸念やアクセス制限のために常に利用できるとは限らない、事前アンカーリンクや/またはノード機能などの追加情報がない。 そこで本研究では,最新のNA手法であるGrad-Alignをベースとした新しいNA法であるGrad-Align+を提案する。 Grad-Align+を設計する際には、NAタスクの実行という意味でノード機能を拡張する方法と、拡張ノード機能を最大限活用してNAメソッドを設計する方法を説明します。 この目標を達成するために、Grad-Align+は3つの重要なコンポーネントから構成されている。 1)CNFA(Centrality-based node feature augmentation) 2)グラフニューラルネットワーク(GNN)を用いた埋め込み類似性計算 3)アライメント・クロスネットワーク・ニアペア(ACN)を用いた類似性計算による段階的NA。 包括的実験を通して、Grad-Align+が示すことを実証する。 a)ベンチマークNAメソッドよりも優れていること。 (b)CNFAの有効性を確認するための実証的検証と理論的知見。 (c)各成分の影響 (d)ネットワークノイズに対する堅牢性、及び (e)計算効率。

Network alignment (NA) is the task of discovering node correspondences across multiple networks. Although NA methods have achieved remarkable success in a myriad of scenarios, their effectiveness is not without additional information such as prior anchor links and/or node features, which may not always be available due to privacy concerns or access restrictions. To tackle this challenge, we propose Grad-Align+, a novel NA method built upon a recent state-of-the-art NA method, the so-called Grad-Align, that gradually discovers a part of node pairs until all node pairs are found. In designing Grad-Align+, we account for how to augment node features in the sense of performing the NA task and how to design our NA method by maximally exploiting the augmented node features. To achieve this goal, Grad-Align+ consists of three key components: 1) centrality-based node feature augmentation (CNFA), 2) graph neural network (GNN)-aided embedding similarity calculation alongside the augmented node features, and 3) gradual NA with similarity calculation using aligned cross-network neighbor-pairs (ACNs). Through comprehensive experiments, we demonstrate that Grad-Align+ exhibits (a) the superiority over benchmark NA methods, (b) empirical validations as well as our theoretical findings to see the effectiveness of CNFA, (c) the influence of each component, (d) the robustness to network noises, and (e) the computational efficiency.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# ANALOGYKB:百万単位の知識ベースを持つ言語モデルのアナロジー推論をアンロックする

ANALOGYKB: Unlocking Analogical Reasoning of Language Models with A Million-scale Knowledge Base ( http://arxiv.org/abs/2305.05994v2 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Changzhi Sun, Jiaqing Liang, Yanghua Xiao, Deqing Yang, (参考訳) アナロジー推論は人間の基本的な認知能力である。 しかしながら、現在の言語モデル(LM)は、モデルトレーニングのリソースが不足しているため、類似の推論タスクにおいて人間のようなパフォーマンスを達成するのに苦慮している。 本研究では,既存の知識グラフ(KGs)から派生した100万の類似知識ベース(KB)であるANALOGYKBを提案する。 ANALOGYKBは、KGsの2種類の類似を識別する。 1)KGから直接抽出できる同一関係の類似、及び 2) 大規模言語モデル (LLM) によって実現された選択・フィルタリングパイプラインと同一視される類似関係の類推, 続いてデータ品質管理のためのマイナーな人的努力が続く。 2つの類似推論タスク(アナロジー認識と生成)の一連のデータセットの評価により、ANALOGYKBはより小さなLMとLLMの両方がより良い類似推論能力を得ることができることを示した。

Analogical reasoning is a fundamental cognitive ability of humans. However, current language models (LMs) still struggle to achieve human-like performance in analogical reasoning tasks due to a lack of resources for model training. In this work, we address this gap by proposing ANALOGYKB, a million-scale analogy knowledge base (KB) derived from existing knowledge graphs (KGs). ANALOGYKB identifies two types of analogies from the KGs: 1) analogies of the same relations, which can be directly extracted from the KGs, and 2) analogies of analogous relations, which are identified with a selection and filtering pipeline enabled by large language models (LLMs), followed by minor human efforts for data quality control. Evaluations on a series of datasets of two analogical reasoning tasks (analogy recognition and generation) demonstrate that ANALOGYKB successfully enables both smaller LMs and LLMs to gain better analogical reasoning capabilities.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# 光位相非感光ヘテロダインの3dBノイズによる検出

Quantum-enhanced optical phase-insensitive heterodyne detection beyond 3-dB noise penalty of image band ( http://arxiv.org/abs/2305.06579v2 )

ライセンス: Link先を確認
Keitaro Anai, Yutaro Enomoto, Hiroto Omura, Koji Nagano, Kiwamu Izumi, Mamoru Endo, Shuntaro Takeda, (参考訳) 光位相不感なヘテロダイン(ビートノート)検出は、光周波数コムの周波数測定など、様々な空間的・時間的測定のための重要なセンシング技術である。 しかし、感度は信号周波数帯域からのショットノイズだけでなく、3dBノイズペナルティとして知られる画像帯域からの余分なショットノイズによって制限される。 そこで本稿では, 圧縮光を用いた全バンドからのショットノイズ除去手法を提案する。 また,3-dB以上のノイズ低減実験を行い,信号と余剰帯域の両方からのショットノイズを同時に低減できることを確認した。 我々の研究は、現在の限界を超えた様々な空間的・時間的測定の感度を高めるべきである。

Optical phase-insensitive heterodyne (beat-note) detection, which measures the relative phase of two beams at different frequencies through their interference, is a key sensing technology for various spatial/temporal measurements, such as frequency measurements in optical frequency combs. However, its sensitivity is limited not only by shot noise from the signal frequency band but also by the extra shot noise from an image band, known as the 3-dB noise penalty. Here, we propose a method to remove shot noise from all these bands using squeezed light. We also demonstrate beyond-3-dB noise reduction experimentally, confirming that our method actually reduces shot noise from both the signal and extra bands simultaneously. Our work should boost the sensitivity of various spatial/temporal measurements beyond the current limitations.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# ACRoBat: コンパイル時に動的ディープラーニングの自動バッチを最適化する

ACRoBat: Optimizing Auto-batching of Dynamic Deep Learning at Compile Time ( http://arxiv.org/abs/2305.10611v2 )

ライセンス: Link先を確認
Pratik Fegade, Tianqi Chen, Phillip B. Gibbons, Todd C. Mowry, (参考訳) 動的制御フローは、テキスト解析、機械翻訳、深層モデルからの早期離脱などのアプリケーションのための表現的かつ効率的なディープラーニング計算を設計するためにしばしば使用される重要な手法である。 動的制御フローによる制御フローのばらつきによりバッチ化は,高いスループットとハードウェア利用を可能にする重要な最適化であり,手作業による実行が困難である。 本稿では,動的深層学習のための動的バッチ処理を実現するフレームワークであるACRoBatを提案する。 ACRoBatはNvidia GeForce GPU上で、自動バッチ処理のための最先端フレームワークであるDyNetよりも最大8.5倍パフォーマンスが向上している。

Dynamic control flow is an important technique often used to design expressive and efficient deep learning computations for applications such as text parsing, machine translation, exiting early out of deep models and so on. The control flow divergence resulting from dynamic control flow makes batching, an important optimization enabling high throughput and hardware utilization, difficult to perform manually. In this paper, we present ACRoBat, a framework that enables efficient automatic batching for dynamic deep learning computations by performing hybrid static+dynamic compiler optimizations and end-to-end tensor code generation. ACRoBat performs up to 8.5X better than DyNet, a state-of-the-art framework for automatic batching, on an Nvidia GeForce GPU.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-17
# Spuriousの機能はどのように記憶されるか: ランダムとNTKの正確な分析

How Spurious Features Are Memorized: Precise Analysis for Random and NTK Features ( http://arxiv.org/abs/2305.12100v3 )

ライセンス: Link先を確認
Simone Bombari, Marco Mondelli, (参考訳) ディープラーニングモデルは、トレーニングデータセットの急激な機能に過度に適合し、記憶することが知られている。 多くの実証的研究はこの現象を理解することを目的としているが、それを定量化するための厳密な理論的な枠組みはいまだに欠けている。 本稿では,学習課題とは無関係な突発的特徴を考察し,それらがどのように2つの用語で記憶されているか,正確に評価する。 一 個別の訓練サンプルに関するモデルの安定性 (二)突発的特徴と全サンプルとの間の特徴アライメント 第1項は学習理論においてよく確立されており、古典的作品における一般化誤差と結びついているが、第2項は、我々の知る限りでは、小説である。 我々の重要な技術的成果は、ランダムな特徴(RF)とニューラル・タンジェント・カーネル(NTK)の回帰の2つの原型的な設定に対する特徴アライメントを正確に評価することである。 一般化能力の増大に伴い,突発的特徴の記憶が弱まることを証明し,特徴アライメントの分析を通じて,モデルの役割とその活性化関数を明らかにする。 数値実験により、我々の理論の標準データセット(MNIST, CIFAR-10)における予測力を示す。

Deep learning models are known to overfit and memorize spurious features in the training dataset. While numerous empirical studies have aimed at understanding this phenomenon, a rigorous theoretical framework to quantify it is still missing. In this paper, we consider spurious features that are uncorrelated with the learning task, and we provide a precise characterization of how they are memorized via two separate terms: (i) the stability of the model with respect to individual training samples, and (ii) the feature alignment between the spurious feature and the full sample. While the first term is well established in learning theory and it is connected to the generalization error in classical work, the second one is, to the best of our knowledge, novel. Our key technical result gives a precise characterization of the feature alignment for the two prototypical settings of random features (RF) and neural tangent kernel (NTK) regression. We prove that the memorization of spurious features weakens as the generalization capability increases and, through the analysis of the feature alignment, we unveil the role of the model and of its activation function. Numerical experiments show the predictive power of our theory on standard datasets (MNIST, CIFAR-10).
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# ターボ機械CFD解析のためのディープラーニングフレームワークC(NN)FD

C(NN)FD -- a deep learning framework for turbomachinery CFD analysis ( http://arxiv.org/abs/2306.05889v2 )

ライセンス: Link先を確認
Giuseppe Bruni, Sepehr Maleki, Senthil K. Krishnababu, (参考訳) ディープ・ラーニングの手法は様々な産業で様々な応用が成功している。 これまで、CFD(Computational Fluid Dynamics)のような物理シミュレーションへの応用は、小さな産業関連性の単純なテストケースに限られてきた。 本稿では, ガスタービンの軸圧縮機全体の性能に及ぼす製造・施工の変動の影響をリアルタイムに予測するための新しいディープラーニングフレームワークを開発し, 先端クリアランスの変動に着目した。 関連した効率の散乱はCO2排出量を大幅に増加させ、工業的および環境的関連性が高い。 提案したC(NN)FDアーキテクチャはCFDベンチマークに匹敵するリアルタイムの精度を実現する。 フローフィールドを予測し、それを使用して全体的なパフォーマンスを計算すると、方法論は一般化できるが、CFDソリューションの関連する部分のみをフィルタリングすることで、方法論は産業アプリケーションにスケーラブルになる。

Deep Learning methods have seen a wide range of successful applications across different industries. Up until now, applications to physical simulations such as CFD (Computational Fluid Dynamics), have been limited to simple test-cases of minor industrial relevance. This paper demonstrates the development of a novel deep learning framework for real-time predictions of the impact of manufacturing and build variations on the overall performance of axial compressors in gas turbines, with a focus on tip clearance variations. The associated scatter in efficiency can significantly increase the CO2 emissions, thus being of great industrial and environmental relevance. The proposed C(NN)FD architecture achieves in real-time accuracy comparable to the CFD benchmark. Predicting the flow field and using it to calculate the corresponding overall performance renders the methodology generalisable, while filtering only relevant parts of the CFD solution makes the methodology scalable to industrial applications.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# 複数の独立時系列における変化点検出のための幾何学的プルーニングルール

Geometric-Based Pruning Rules For Change Point Detection in Multiple Independent Time Series ( http://arxiv.org/abs/2306.09555v2 )

ライセンス: Link先を確認
Liudmila Pishchagina, Guillem Rigaill, Vincent Runge, (参考訳) 複数の独立時系列における複数の変化を検出することの問題点を考察する。 最適セグメンテーションの探索は、与えられたコスト関数に対する最小化問題として表現できる。 我々はこの問題を正確に解く動的プログラミングアルゴリズムに焦点を当てている。 データ長に比例すると、PELTアルゴリズムで符号化された不等式に基づくプルーニングルールが線形時間複雑性をもたらす。 機能的プルーニング(英: functional pruning)と呼ばれる別のタイプのプルーニング(英: pruning)は、変化の数によらず、線形に近い時間複雑性を与えるが、これは単変量時系列の解析に限られる。 本稿では,単純な幾何学的形状(球と超矩形)を用いて,複数の独立時系列に対する機能的プルーニングのいくつかの拡張を提案する。 ガウスの場合に焦点を当てるが、我々の規則のいくつかは指数族に容易に拡張できる。 シミュレーション研究では,異なる幾何学的プルーニング規則の計算効率を比較した。 小さい次元(2, 3, 4)では、データ長に比べて変化の基数が小さい場合、特に不等式に基づくアプローチよりもはるかに高速に動作することが示される。

We consider the problem of detecting multiple changes in multiple independent time series. The search for the best segmentation can be expressed as a minimization problem over a given cost function. We focus on dynamic programming algorithms that solve this problem exactly. When the number of changes is proportional to data length, an inequality-based pruning rule encoded in the PELT algorithm leads to a linear time complexity. Another type of pruning, called functional pruning, gives a close-to-linear time complexity whatever the number of changes, but only for the analysis of univariate time series. We propose a few extensions of functional pruning for multiple independent time series based on the use of simple geometric shapes (balls and hyperrectangles). We focus on the Gaussian case, but some of our rules can be easily extended to the exponential family. In a simulation study we compare the computational efficiency of different geometric-based pruning rules. We show that for small dimensions (2, 3, 4) some of them ran significantly faster than inequality-based approaches in particular when the underlying number of changes is small compared to the data length.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# 均一電場及び磁場中の平面フェルミオンに対するフェルミオン縮合と真空エネルギー-モーメントテンソル

Fermionic condensate and the vacuum energy-momentum tensor for planar fermions in homogeneous electric and magnetic fields ( http://arxiv.org/abs/2306.11402v4 )

ライセンス: Link先を確認
V. V. Parazian, (参考訳) 外部定数および均一な電場および磁場の平面上に局在した巨大なフェルミオン量子場を考える。 磁場は平面に垂直であり、電場は平行である。 ディラック方程式に対する完全な解の集合が提示される。 真空状態の重要な物理特性として、フェルミオン凝縮物とエネルギー-モーメントテンソルの期待値について検討した。 再正規化はHurwitz関数を用いて行われる。 その結果, ゼロ電場の場合と比較した。 問題パラメータの値について,各領域における真空期待値の挙動について考察する。 この結果の応用例としては、長波長近似におけるディラックモデルにより記述されたグラフェンシートの電子サブシステムがある。

We consider a massive fermionic quantum field localized on a plane in external constant and homogeneous electric and magnetic fields. The magnetic field is perpendicular to the plane and the electric field is parallel. The complete set of solutions to the Dirac equation is presented. As important physical characteristics of the vacuum state, the fermion condensate and the expectation value of the energy-momentum tensor are investigated. The renormalization is performed using the Hurwitz function. The results are compared with those previously studied in the case of zero electric field. We discuss the behavior of the vacuum expectation values in different regions for the values of the problem parameters. Applications of the results include the electronic subsystem of graphene sheet described by the Dirac model in the long-wavelength approximation.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# 物理インフォームドニューラルネットワークによる次元曲線の処理

Tackling the Curse of Dimensionality with Physics-Informed Neural Networks ( http://arxiv.org/abs/2307.12306v6 )

ライセンス: Link先を確認
Zheyuan Hu, Khemraj Shukla, George Em Karniadakis, Kenji Kawaguchi, (参考訳) 次元の呪いは計算資源に重きを置き、次元が大きくなるにつれて計算コストが指数関数的に増加する。 これは60年以上前にRichard E. Bellman氏が指摘したように、高次元PDEを解決する上で大きな課題となる。 近年、数値偏微分方程式(PDE)を高次元で解くことに成功したが、そのような計算は違法に高価であり、一般的な非線形PDEの高次元への真のスケーリングは達成されていない。 我々は、任意の高次元PDEを解決するために、物理インフォームドニューラルネットワーク(PINN)をスケールアップする新しい方法を開発した。 新たな手法はStochastic Dimension Gradient Descent (SDGD)と呼ばれ、PDEの勾配を異なる次元に対応するピースに分解し、トレーニングPINNの各イテレーションでこれらの次元のサブセットをランダムにサンプリングする。 理論的には,提案手法の収束性およびその他の望ましい性質が証明される。 提案手法は,HJB(Hamilton-Jacobi-Bellman)やShr\"{o}dinger方程式を,PINNのメッシュフリーアプローチを用いて,1つのGPU上で非常に高速に解くことができることを示す。 特に,非自明,異方性,分離不能な非線形PDEを1個のGPU上で12時間で10万の有効次元で解いた。 SDGD は PINN の一般的な訓練手法であるため、任意の高次元 PDE に対してスケールアップするために、現在および将来の PINN の変種に適用することができる。

The curse-of-dimensionality taxes computational resources heavily with exponentially increasing computational cost as the dimension increases. This poses great challenges in solving high-dimensional PDEs, as Richard E. Bellman first pointed out over 60 years ago. While there has been some recent success in solving numerically partial differential equations (PDEs) in high dimensions, such computations are prohibitively expensive, and true scaling of general nonlinear PDEs to high dimensions has never been achieved. We develop a new method of scaling up physics-informed neural networks (PINNs) to solve arbitrary high-dimensional PDEs. The new method, called Stochastic Dimension Gradient Descent (SDGD), decomposes a gradient of PDEs into pieces corresponding to different dimensions and randomly samples a subset of these dimensional pieces in each iteration of training PINNs. We prove theoretically the convergence and other desired properties of the proposed method. We demonstrate in various diverse tests that the proposed method can solve many notoriously hard high-dimensional PDEs, including the Hamilton-Jacobi-Bellman (HJB) and the Schr\"{o}dinger equations in tens of thousands of dimensions very fast on a single GPU using the PINNs mesh-free approach. Notably, we solve nonlinear PDEs with nontrivial, anisotropic, and inseparable solutions in 100,000 effective dimensions in 12 hours on a single GPU using SDGD with PINNs. Since SDGD is a general training methodology of PINNs, it can be applied to any current and future variants of PINNs to scale them up for arbitrary high-dimensional PDEs.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# 多光子損失に対するオシレータにおけるフォック状態の自律安定化

Autonomous Stabilization of Fock States in an Oscillator against Multiphoton Losses ( http://arxiv.org/abs/2308.08296v2 )

ライセンス: Link先を確認
Sai Li, Zhongchu Ni, Libo Zhang, Yanyan Cai, Jiasheng Mai, Shengcheng Wen, Pan Zheng, Xiaowei Deng, Song Liu, Yuan Xu, Dapeng Yu, (参考訳) 発振器内の多くの光子を持つフォック状態は、量子情報科学の幅広い応用を示している。 それでも、その有用性は、避けられない環境による散逸によって、単光子と複数光子による損失によって損なわれている。 いくつかの散逸工学手法が、先行する単一光子損失の誤差に対処するために開発されているが、複数の光子損失を回避することは、いまだ解明されていない。 本稿では,超伝導量子回路におけるカスケード選択光子付加操作を用いて,複数の光子の損失に対する多光子フォック状態の自律安定化を行う散逸工学的手法を実験的に実証する。 振動子状態の光子数およびウィグナートモグラフィーを測定することにより、安定化されたフォック状態に対する非古典的ウィグナーネガティビティの長期保存を観測し、約10ミリ秒間、$N=1,2,3$で$\vert N\rangle$で観測する。 これらの結果は、多光子ロス誤差に対する誤り訂正可能な量子情報処理の潜在的な応用を浮き彫りにする。

Fock states with a well-defined number of photons in an oscillator have shown a wide range of applications in quantum information science. Nonetheless, their usefulness has been marred by single and multiple photon losses due to unavoidable environment-induced dissipation. Though several dissipation engineering methods have been developed to counteract the leading single-photon loss error, averting multiple photon losses remains elusive. Here, we experimentally demonstrate a dissipation engineering method that autonomously stabilizes multi-photon Fock states against losses of multiple photons using a cascaded selective photon-addition operation in a superconducting quantum circuit. Through measuring the photon-number populations and Wigner tomography of the oscillator states, we observe a prolonged preservation of nonclassical Wigner negativities for the stabilized Fock states $\vert N\rangle$ with $N=1,2,3$ for a duration of about 10 ms. Furthermore, the dissipation engineering method demonstrated here also facilitates the implementation of a non-unitary operation for resetting a binomially-encoded logical qubit. These results highlight potential applications in error-correctable quantum information processing against multi-photon-loss errors.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# ALI-DPFL: 適応的局所反復による個人的フェデレーション学習

ALI-DPFL: Differentially Private Federated Learning with Adaptive Local Iterations ( http://arxiv.org/abs/2308.10457v8 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Kuncan Wang, Haitao Liu, Zhili Chen, (参考訳) Federated Learning(FL)は、データではなくトレーニングパラメータを共有することによって、複数のデバイスや組織間のモデルトレーニングを可能にする分散機械学習技術である。 しかし、敵はこれらのトレーニングパラメータの推論攻撃(例えば差分攻撃)を通じて個人情報を推測することができる。 その結果、差分プライバシー(DP)はFLでそのような攻撃を防ぐために広く利用されている。 我々は、プライバシ予算とコミュニケーションラウンドの両方に制約があるリソース制約のあるシナリオにおいて、差分プライベートなフェデレーション学習を考察する。 収束を理論的に解析することにより、2つのシーケンシャルなグローバルな更新の間に、クライアントのローカルDPSGDイテレーションの最適な数を見つけることができる。 そこで我々は,適応的局所反復(ALI-DPFL)を用いた微分プライベート・フェデレーション学習のアルゴリズムを設計した。 我々は,MNIST,FashionMNIST,Cifar10データセットのアルゴリズムを実験し,資源制約シナリオにおけるこれまでの作業よりもはるかに優れた性能を示す。 コードはhttps://github.com/KnightWan/ALI-DPFL.comで入手できる。

Federated Learning (FL) is a distributed machine learning technique that allows model training among multiple devices or organizations by sharing training parameters instead of raw data. However, adversaries can still infer individual information through inference attacks (e.g. differential attacks) on these training parameters. As a result, Differential Privacy (DP) has been widely used in FL to prevent such attacks. We consider differentially private federated learning in a resource-constrained scenario, where both privacy budget and communication rounds are constrained. By theoretically analyzing the convergence, we can find the optimal number of local DPSGD iterations for clients between any two sequential global updates. Based on this, we design an algorithm of Differentially Private Federated Learning with Adaptive Local Iterations (ALI-DPFL). We experiment our algorithm on the MNIST, FashionMNIST and Cifar10 datasets, and demonstrate significantly better performances than previous work in the resource-constraint scenario. Code is available at https://github.com/KnightWan/ALI-DPFL.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# 一般化ランダム位相近似における孤立帯域限界における超流動重み

Superfluid weight in the isolated band limit within the generalized random phase approximation ( http://arxiv.org/abs/2308.10780v2 )

ライセンス: Link先を確認
Minh Tam, Sebastiano Peotta, (参考訳) ハバード相互作用を持つ一般格子モデルの超流動重みは、一般化ランダム位相近似における孤立帯域極限において解析的に計算される。 時間反転対称性、スピン回転対称性、均一なペアリング条件が仮定される。 その結果、[https://link.aps.org/doi/10.1103/PhysRevB.106.014518] で得られたフラットバンド限界の超流動重みと、一般化されたランダム位相近似のレベルにおいても、いわゆる最小量子メートル法が有効であることが判明した。 D_{\rm s}^{(1)} = D_{\rm s,c}^{(1)}+D_{\rm s,g}^{(1)}$と、既知の平均場の結果である$D_{\rm s}^{(0)}=D_{\rm s,c}^{(0)}=D_{\rm s,c}^{(0)}+D_{\rm s,g}^{(0)}$の場合と同様に、一般化されたランダム位相近似から得られる超流動重みの補正は、従来のコントリビューションである$D_{\rm s,c}^{(1)}$と幾何学的なコントリビューションである$D_{\rm s,g}^{(1)}$の和でもある。 従来の寄与は、軌道位置とは独立な幾何学的独立であるが、$D_{\rm s,g}^{(1)}=0$のような軌道位置の好ましい、あるいは自然な集合を見つけることができる。 有用な解析式は、必ずしも平坦ではないバンドへの拡張を含む、自然軌道の位置と最小量子計量の両方に対して導出される。 最後に、いくつかの単純な例を用いて、自然軌道の位置はバンド構造の位相的性質のより洗練された分類につながると論じられている。

The superfluid weight of a generic lattice model with attractive Hubbard interaction is computed analytically in the isolated band limit within the generalized random phase approximation. Time-reversal symmetry, spin rotational symmetry, and the uniform pairing condition are assumed. It is found that the relation obtained in [https://link.aps.org/doi/10.1103/PhysRevB.106.014518] between the superfluid weight in the flat band limit and the so-called minimal quantum metric is valid even at the level of the generalized random phase approximation. For an isolated, but not necessarily flat, band it is found that the correction to the superfluid weight obtained from the generalized random phase approximation $D_{\rm s}^{(1)} = D_{\rm s,c}^{(1)}+D_{\rm s,g}^{(1)}$ is also the sum of a conventional contribution $D_{\rm s,c}^{(1)}$ and a geometric contribution $D_{\rm s,g}^{(1)}$, as in the case of the known mean-field result $D_{\rm s}^{(0)}=D_{\rm s,c}^{(0)}+D_{\rm s,g}^{(0)}$, in which the geometric term $D_{\rm s,g}^{(0)}$ is a weighted average of the quantum metric. The conventional contribution is geometry independent, that is independent of the orbital positions, while it is possible to find a preferred, or natural, set of orbital positions such that $D_{\rm s,g}^{(1)}=0$. Useful analytic expressions are derived for both the natural orbital positions and the minimal quantum metric, including its extension to bands that are not necessarily flat. Finally, using some simple examples, it is argued that the natural orbital positions may lead to a more refined classification of the topological properties of the band structure.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# REB:産業異常検出のための表現におけるバイアス低減

REB: Reducing Biases in Representation for Industrial Anomaly Detection ( http://arxiv.org/abs/2308.12577v2 )

ライセンス: Link先を確認
Shuai Lyu, Dongmei Mo, Waikeung Wong, (参考訳) 既存の表現に基づく手法は、通常、工業的異常検出を2段階に分けて行う: 事前訓練されたモデルを用いて特徴表現を取得し、異常検出のための距離測定を行う。 そのうち, K-nearest neighbor (KNN) 検索に基づく異常検出手法は有望な結果を示す。 しかし、これらの手法は、事前訓練されたモデルのドメインバイアスと、検出性能を制限する特徴空間における局所密度の差を無視しているため、完全には活用されない。 本稿では, ドメインバイアスを考慮した表現におけるReduceing Biases(REB)を提案し, 自己教師型学習タスクを構築し, 欠陥発生戦略(DefectMaker)を用いて, 合成欠陥の多様性を確実にする。 さらに,特徴空間における局所密度バイアスを低減し,効果的な異常検出を実現するために,局所密度KNN(LDKNN)を提案する。 提案手法は,Vgg11 や Resnet18 などの小さなバックボーンネットワークを備えた MVTec AD 上で,99.5 % Im.AUROC の有望な結果が得られる。 また、MVTec LOCO ADデータセット上では印象的な88.8\% Im.AUROC、BTADデータセットでは96.0\%を達成し、他の表現ベースアプローチよりも優れている。 これらの結果から, 産業用REBの有効性と有効性が示唆された。 コード:https://github.com/ShuaiLYU/REB。

Existing representation-based methods usually conduct industrial anomaly detection in two stages: obtain feature representations with a pre-trained model and perform distance measures for anomaly detection. Among them, K-nearest neighbor (KNN) retrieval-based anomaly detection methods show promising results. However, the features are not fully exploited as these methods ignore domain bias of pre-trained models and the difference of local density in feature space, which limits the detection performance. In this paper, we propose Reducing Biases (REB) in representation by considering the domain bias and building a self-supervised learning task for better domain adaption with a defect generation strategy (DefectMaker) that ensures a strong diversity in the synthetic defects. Additionally, we propose a local-density KNN (LDKNN) to reduce the local density bias in the feature space and obtain effective anomaly detection. The proposed REB method achieves a promising result of 99.5\% Im.AUROC on the widely used MVTec AD, with smaller backbone networks such as Vgg11 and Resnet18. The method also achieves an impressive 88.8\% Im.AUROC on the MVTec LOCO AD dataset and a remarkable 96.0\% on the BTAD dataset, outperforming other representation-based approaches. These results indicate the effectiveness and efficiency of REB for practical industrial applications. Code:https://github.com/ShuaiLYU/REB.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# ネットワーク上のロバストオンライン学習

Robust Online Learning over Networks ( http://arxiv.org/abs/2309.00520v2 )

ライセンス: Link先を確認
Nicola Bastianello, Diego Deplano, Mauro Franceschelli, Karl H. Johansson, (参考訳) 近年のマルチエージェントネットワークの展開により、エージェントがローカルなプライベートデータを共有せずにグローバルモデルのトレーニングに協力する、学習問題の分散ソリューションが実現された。 この作業は、分散学習に固有のいくつかの一般的な課題を特に対象とする。 (i)オンライントレーニング、すなわち、時間とともにローカルデータが変化すること。 (ii)非同期エージェント計算 三 信頼できない、限られた通信 (4)局所計算が不完全である。 これらの課題に対処するために、我々は、分散演算子理論(DOT)のADMM(Alternating Direction Method of Multipliers)を応用し、「DOT-ADMM(DOT-ADMM)」と呼ぶ。 DOT-ADMM作用素が計量部分正則であれば、(必ずしも強ではない)凸学習問題を最適時変解の有界近傍へ収束させ、そのような近傍がどのように依存するかを特徴づける。 (i)- (4)。 まず、演算子のメートル法準正則性を保証するための検証し易い条件を導出し、続いて線形回帰問題とロジスティック回帰問題に関するチュートリアル例を示す。 我々は、DOT-ADMMを他の最先端アルゴリズムと比較した数値シミュレーションと理論解析を相関させ、提案アルゴリズムだけが堅牢性を示すことを示す。 (i)- (4)。

The recent deployment of multi-agent networks has enabled the distributed solution of learning problems, where agents cooperate to train a global model without sharing their local, private data. This work specifically targets some prevalent challenges inherent to distributed learning: (i) online training, i.e., the local data change over time; (ii) asynchronous agent computations; (iii) unreliable and limited communications; and (iv) inexact local computations. To tackle these challenges, we apply the Distributed Operator Theoretical (DOT) version of the Alternating Direction Method of Multipliers (ADMM), which we call "DOT-ADMM". We prove that if the DOT-ADMM operator is metric subregular, then it converges with a linear rate for a large class of (not necessarily strongly) convex learning problems toward a bounded neighborhood of the optimal time-varying solution, and characterize how such neighborhood depends on (i)-(iv). We first derive an easy-to-verify condition for ensuring the metric subregularity of an operator, followed by tutorial examples on linear and logistic regression problems. We corroborate the theoretical analysis with numerical simulations comparing DOT-ADMM with other state-of-the-art algorithms, showing that only the proposed algorithm exhibits robustness to (i)-(iv).
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# 分数化スピンのトポロジカル量子同期

Topological quantum synchronization of fractionalized spins ( http://arxiv.org/abs/2309.01960v3 )

ライセンス: Link先を確認
Christopher W. Wächtler, Joel E. Moore, (参考訳) Affleck-Kennedy-Lieb-Tasaki (AKLT)モデルのギャップ対称相は開鎖の端で分数化されたスピンを示す。 我々は、SU(2)対称性を破り、大域スピン降下散逸器を適用することにより、これらの分数化スピンの同期が達成されることを示す。 追加の局所散逸器は基底状態多様体への収束を保証する。 この同期のどの側面がハルデンギャップ位相全体において堅牢であるかを理解するために、外部フィールドを必要としないが同期を不安定にする二分数項を減少させる。 基底状態部分空間内では、グローバル降下散逸器のみを用いて安定性が回復する。 これらの結果は、分数化自由度が、トポロジカルな保護から生じるかなりの堅牢性を持つ拡張系で同期可能であることを示している。 直結すると、置換対称性は、置換対称性によって引き起こされる同期と比較して位相的同期の明確な利点を表わすため、動力学を同期させる必要がなくなる。

The gapped symmetric phase of the Affleck-Kennedy-Lieb-Tasaki (AKLT) model exhibits fractionalized spins at the ends of an open chain. We show that breaking SU(2) symmetry and applying a global spin-lowering dissipator achieves synchronization of these fractionalized spins. Additional local dissipators ensure convergence to the ground state manifold. In order to understand which aspects of this synchronization are robust within the entire Haldane-gap phase, we reduce the biquadratic term which eliminates the need for an external field but destabilizes synchronization. Within the ground state subspace, stability is regained using only the global lowering dissipator. These results demonstrate that fractionalized degrees of freedom can be synchronized in extended systems with a significant degree of robustness arising from topological protection. \rev{A direct consequence is that permutation symmetries are not required for the dynamics to be synchronized, representing a clear advantage of topological synchronization compared to synchronization induced by permutation symmetries.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# LLMの量子化のための符号付き勾配線による軽量ラウンドリングの最適化

Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs ( http://arxiv.org/abs/2309.05516v3 )

ライセンス: Link先を確認
Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv, Yi Liu, (参考訳) 言語モデル(LLM)は、言語に関連したタスクにおいて、例外的な習熟度を示す。 しかし、そのデプロイメントは、メモリとストレージの要求がかなり大きいため、重大な課題を呈している。 この課題に対処するために、重量のみの量子化が有望な解決策として登場した。 従来の研究は、上下方向の微調整によって性能が向上することを示した。 本研究では,署名勾配降下法(SignSGD)を用いて,200ステップ以内の丸め値と重み切りを最適化し,QAT(Quantization-Aware Training)とPTQ(Post-Training Quantization)の両長みを組み合わせたSignRoundを提案する。 SignRoundは2ビットから4ビットにわたる最近の手法と比較して、チューニングコストが低く、追加の推論オーバーヘッドを発生させることなく、優れた結果が得られる。 例えば、SignRoundは平均精度を6.91\%から2ビットで33.22\%に改善した。 さらに、様々な最近のモデルに対して堅牢な一般化を示し、ほとんどのシナリオにおいて4ビットでほぼロスレス量子化を実現する。 ソースコードは \url{https://github.com/intel/auto-round} で公開されている。

Large Language Models (LLMs) have demonstrated exceptional proficiency in language-related tasks. However, their deployment presents significant challenges due to their substantial memory and storage requirements. To address this challenge, weight-only quantization has emerged as a promising solution. Previous research has indicated that fine-tuning through up and down rounding can enhance performance. In this study, we introduce SignRound, a method that utilizes signed gradient descent (SignSGD) to optimize rounding values and weight clipping within just 200 steps, combining the strengths of both Quantization-Aware Training (QAT) and Post-Training Quantization (PTQ). SignRound achieves outstanding results compared to recent methods across 2 to 4 bits, while maintaining low tuning costs and without introducing any additional inference overhead. For instance, SignRound led to absolute average accuracy improvements ranging from 6.91\% to 33.22\% at 2 bits. Furthermore, it demonstrates robust generalization to various recent models and achieves near-lossless quantization in most scenarios at 4 bits. The source code is publicly available at \url{https://github.com/intel/auto-round}.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# ATM:攻撃木のセキュリティ特性を定量化するための論理

ATM: a Logic for Quantitative Security Properties on Attack Trees ( http://arxiv.org/abs/2309.09231v2 )

ライセンス: Link先を確認
Stefano M. Nicoletti, Milan Lopuhaä-Zwakenberg, E. Moritz Hahn, Mariëlle Stoelinga, (参考訳) 信頼性と可用性が最重要である重要なインフラストラクチャシステムは、安全に運用する必要があります。 アタックツリー(AT)は、システムの攻撃方法を評価するのに使用されるフレキシブルなモデリング言語を提供する階層図である。 ATは業界と学界の両方で広く利用されているが、その人気にもかかわらず、実践者がAT上のクエリを理解できるが強力な方法で定式化するための作業はほとんど行われていない。 本稿では,AT 上の量的セキュリティ特性を表現するロジックであるATM を提示することで,このギャップを埋める。 ATMは、"コスト"、"確率"、"スキル"を含むセキュリティメトリクスに関連するプロパティの仕様を可能にし、洞察に富んだWhat-ifシナリオの定式化を可能にする。 その可能性を示すために、ATMをCubeSATのケーススタディに適用し、攻撃者がその可用性を損なう3つの方法を示す。 本稿では、対応する攻撃ツリーのプロパティ仕様を示し、ATM-formulaeのプロパティと計算メトリクスをチェックするために、バイナリ決定図に基づく理論とアルゴリズムを提案する。

Critical infrastructure systems - for which high reliability and availability are paramount - must operate securely. Attack trees (ATs) are hierarchical diagrams that offer a flexible modelling language used to assess how systems can be attacked. ATs are widely employed both in industry and academia but - in spite of their popularity - little work has been done to give practitioners instruments to formulate queries on ATs in an understandable yet powerful way. In this paper we fill this gap by presenting ATM, a logic to express quantitative security properties on ATs. ATM allows for the specification of properties involved with security metrics that include "cost", "probability" and "skill" and permits the formulation of insightful what-if scenarios. To showcase its potential, we apply ATM to the case study of a CubeSAT, presenting three different ways in which an attacker can compromise its availability. We showcase property specification on the corresponding attack tree and we present theory and algorithms - based on binary decision diagrams - to check properties and compute metrics of ATM-formulae.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-17
# LM-Emulated Sandbox を用いた LM エージェントの危険性の同定

Identifying the Risks of LM Agents with an LM-Emulated Sandbox ( http://arxiv.org/abs/2309.15817v2 )

ライセンス: Link先を確認
Yangjun Ruan, Honghua Dong, Andrew Wang, Silviu Pitis, Yongchao Zhou, Jimmy Ba, Yann Dubois, Chris J. Maddison, Tatsunori Hashimoto, (参考訳) 言語モデル(LM)エージェントとツールの使用の最近の進歩は、ChatGPTプラグインのようなアプリケーションによって実証されている。 これらのリスクの特定は労働集約的であり、ツールの実装を必要とし、テストシナリオごとに環境を手動で設定し、リスクのあるケースを見つける。 ツールやエージェントの複雑さが増すにつれ、これらのエージェントをテストするコストが高くなると、高いリスクや長期的リスクを見つけるのがますます難しくなります。 ツール実行をエミュレートするためにLMを使用するフレームワークであるToolEmuを導入し、手動でインスタンス化することなく、さまざまなツールやシナリオに対してLMエージェントのテストを可能にする。 エミュレータとともに,エージェントの故障を調査し,関連するリスクを定量化するLMベースの自動安全評価器を開発した。 ツールエミュレータと評価器の両方を人体評価によりテストし,ToolEmuで特定されたエラーの68.8%が実世界のエージェントの失敗であることを確認した。 36個のハイテイクツールと144個のテストケースからなるキュレートされた初期ベンチマークを用いて、現在のLMエージェントの定量的リスク分析を行い、潜在的に深刻な結果をもたらす可能性のある多数の障害を同定する。 特に、最も安全なLMエージェントでさえ23.9%の時間障害を示しており、より安全なLMエージェントの開発の必要性を強調している。

Recent advances in Language Model (LM) agents and tool use, exemplified by applications like ChatGPT Plugins, enable a rich set of capabilities but also amplify potential risks - such as leaking private data or causing financial losses. Identifying these risks is labor-intensive, necessitating implementing the tools, setting up the environment for each test scenario manually, and finding risky cases. As tools and agents become more complex, the high cost of testing these agents will make it increasingly difficult to find high-stakes, long-tailed risks. To address these challenges, we introduce ToolEmu: a framework that uses an LM to emulate tool execution and enables the testing of LM agents against a diverse range of tools and scenarios, without manual instantiation. Alongside the emulator, we develop an LM-based automatic safety evaluator that examines agent failures and quantifies associated risks. We test both the tool emulator and evaluator through human evaluation and find that 68.8% of failures identified with ToolEmu would be valid real-world agent failures. Using our curated initial benchmark consisting of 36 high-stakes tools and 144 test cases, we provide a quantitative risk analysis of current LM agents and identify numerous failures with potentially severe outcomes. Notably, even the safest LM agent exhibits such failures 23.9% of the time according to our evaluator, underscoring the need to develop safer LM agents for real-world deployment.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# ScaLearn: スケール学習によるシンプルかつ高パラメータ効率なタスク転送

ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by Learning to Scale ( http://arxiv.org/abs/2310.01217v3 )

ライセンス: Link先を確認
Markus Frohmann, Carolin Holtermann, Shahed Masoudian, Anne Lauscher, Navid Rekabsaz, (参考訳) マルチタスク学習(MTL)は、特に言語モデル(LM)を使用する場合、かなり実用的な利点を示している。 これは、共同最適化手順の下で$n$タスクを学習することで一般的に達成されるが、AdapterFusionのようないくつかのメソッドは、問題を2つの段階に分割する。 一 タスク学習において、タスク固有の知識がパラメータ(例えば、アダプタ)の集合にカプセル化され、 (ii)この学習済みの知識を目標タスクに活用するトランスファー。 この関心事の分離は多くの利点をもたらす(例:再利用性を促進する)。 しかし、現在の2段階MTLには、かなりの数の追加パラメータが導入されている。 本稿では,変換学習におけるソースアダプタの出力表現を線形にスケールするの有用性を活用して,この問題に対処する。 ScaLearnは、目的タスクへの効果的な転送を可能にする最小限のスケーリングパラメータセットを学習することにより、ソースタスクの知識を活用する、シンプルでパラメータ効率の高い2段階MTL手法である。 3つのベンチマーク(GLUE, SuperGLUE, HumSet)と2つのエンコーダLMによる実験により、ScaLearnは、少数の転送パラメータ(AdapterFusionの約0.35$%)で、一貫して強いベースラインを上回ります。 注目すべきは、ScaLearnはパラメータを減らしても強い能力を保ち、ターゲットタスク当たりの転送パラメータがたった8ドルで競合する結果が得られることだ。 提案手法は,より効率的なタスク転送の約束として,単純なスケーリングのパワーを実証するものである。

Multi-task learning (MTL) has shown considerable practical benefits, particularly when using language models (LMs). While this is commonly achieved by learning $n$ tasks under a joint optimization procedure, some methods, such as AdapterFusion, divide the problem into two stages: (i) task learning, where knowledge specific to a task is encapsulated within sets of parameters (e.g., adapters), and (ii) transfer, where this already learned knowledge is leveraged for a target task. This separation of concerns provides numerous benefits (e.g., promoting reusability). However, current two-stage MTL introduces a substantial number of additional parameters. We address this issue by leveraging the usefulness of linearly scaling the output representations of source adapters for transfer learning. We introduce ScaLearn, a simple and highly parameter-efficient two-stage MTL method that capitalizes on the knowledge of the source tasks by learning a minimal set of scaling parameters that enable effective transfer to a target task. Our experiments on three benchmarks (GLUE, SuperGLUE, and HumSet) and two encoder LMs show that ScaLearn consistently outperforms strong baselines with a small number of transfer parameters (~ $0.35$% of those of AdapterFusion). Remarkably, we observe that ScaLearn maintains its strong abilities even when further reducing parameters, achieving competitive results with only $8$ transfer parameters per target task. Our proposed approach thus demonstrates the power of simple scaling as a promise for more efficient task transfer.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# 大域的モノポールが高密度媒質中重中間子に及ぼす影響

Impact of global monopole on heavy mesons in hot-dense medium ( http://arxiv.org/abs/2310.04434v2 )

ライセンス: Link先を確認
M. Abu-Shady, Faizuddin Ahmed, (参考訳) 本研究は, 高温媒質の存在下での固有値解に対するトポロジカルな影響について検討する。 これを実現するために、量子流束場と相互作用ポテンシャルの両方を考慮した非相対論的シュリンガー波方程式を用いる。 この手法により,ニキフォロフ・ウバロフ法を用いてエネルギー固有値とその対応する波動関数を決定する。 以上の結果から, トポロジカル効果と磁気フラックス($\Phi$)の両方を考慮すると, 高温密度媒質中の結合エネルギーが顕著に減少することが示唆された。 さらに、結合エネルギーを$(T, u_b)$平面内で形成する際のバリオンポテンシャルの役割を分析する。 興味深いことに、バリオンポテンシャルの影響は、その値が減少するにつれてより顕著になる。

This research study is primarily focus on investigating how the topological effects influence the eigenvalue solutions in the presence of a hot-dense medium. To accomplish this, we employ the non-relativistic Schr\"odinger wave equation, taking into consideration both the quantum flux field and an interaction potential. Through this approach, we determine the energy eigenvalues and their corresponding wave functions using the Nikiforov-Uvarov method. Our findings indicate that when we consider both the topological effects and the magnetic flux, $\Phi$, there is a noticeable reduction in the binding energy within the hot-dense medium. Additionally, we analyze the role of the baryonic potential in shaping the binding energy within the $(T, u_b)$ plane. Interestingly, it is evident that the influence of the baryonic potential becomes more pronounced as its values decrease
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# デコンボリューション法によるベル型確率分布の量子状態準備

Quantum state preparation for bell-shaped probability distributions using deconvolution methods ( http://arxiv.org/abs/2310.05044v2 )

ライセンス: Link先を確認
Kiratholly Nandakumar Madhav Sharma, Camille de Valk, Ankur Raina, Julian van Velzen, (参考訳) 量子系は、量子測定の現象によって確率分布を生成する自然な選択である。 様々な物理現象から自然界で観測されるデータは、量子回路を用いてモデル化することができる。 このデータを主に確率分布の形でロードするために、我々は古典量子ハイブリッドアプローチを提案する。 古典的な前処理ステップは離散信号のデコンボリューションの概念に基づいている。 本稿では,Jensen-Shannon距離をコスト関数として用いて,古典的なステップから得られる結果の近接度と目標分布を定量化する。 選択したコスト関数は対称であり、任意の最適化アルゴリズムを用いてデコンボリューションステップを実行することができる。 デコンボリューションステップからの出力は、与えられた確率分布をロードするために必要な量子回路を構築するために使用され、回路深さの全体的な減少につながる。 このデコンボリューションステップは、ベル形状の確率質量関数をより小さな確率質量関数に分割し、これは測定前の最小ステップとして量子加算回路からなる量子ハードウェアにおける並列データ処理の道を開く。 我々は,このアルゴリズムをIBM QuantumシミュレータとIBMQ Kolkata量子コンピュータ上でテストし,27量子ビット量子プロセッサを用いた。 ベル形状の異なる2つの分布をロードすることにより,ハイブリッド古典量子アルゴリズムの有効性を検証した。 具体的には7と15のPMFをロードしました。 一 標準正規分布及び標準正規分布 (II)ラプラス分布

Quantum systems are a natural choice for generating probability distributions due to the phenomena of quantum measurements. The data that we observe in nature from various physical phenomena can be modelled using quantum circuits. To load this data, which is mostly in the form of a probability distribution, we present a hybrid classical-quantum approach. The classical pre-processing step is based on the concept of deconvolution of discrete signals. We use the Jensen-Shannon distance as the cost function to quantify the closeness of the outcome from the classical step and the target distribution. The chosen cost function is symmetric and allows us to perform the deconvolution step using any appropriate optimization algorithm. The output from the deconvolution step is used to construct the quantum circuit required to load the given probability distribution, leading to an overall reduction in circuit depth. The deconvolution step splits a bell-shaped probability mass function into smaller probability mass functions, and this paves the way for parallel data processing in quantum hardware, which consists of a quantum adder circuit as the penultimate step before measurement. We tested the algorithm on IBM Quantum simulators and on the IBMQ Kolkata quantum computer, having a 27-qubit quantum processor. We validated the hybrid Classical-Quantum algorithm by loading two different distributions of bell shape. Specifically, we loaded 7 and 15-element PMF for (i) Standard Normal distribution and (ii) Laplace distribution.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# ViCor: 大規模言語モデルによる視覚的理解と常識推論のブリッジ

ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models ( http://arxiv.org/abs/2310.05872v2 )

ライセンス: Link先を確認
Kaiwen Zhou, Kwonjoon Lee, Teruhisa Misu, Xin Eric Wang, (参考訳) 本研究では,視覚的コモンセンス推論(VCR)問題に対する,事前学習型視覚言語モデル(VLM)と大規模言語モデル(LLM)の相乗的機能について検討する。 VLM と LLM に基づく決定パイプラインは,様々な種類の VCR 問題に長けている。 事前学習したVLMは、視覚的コモンセンス理解(VCU)として言及したリテラル視覚内容の理解に関わる問題に対して、高い性能を示す。 視覚的コモンセンス推論(VCI: visual commonsense inference, VLM)と呼ばれる画像内容以外の結論を推測することが目的である問題に対して、LLMは十分な視覚的証拠を与えられた上で、その答えを適切に推測するためにコモンセンスを使用することができる。 2つのサブプロブレム上の画像キャプション決定パイプラインと,VLM と LLM の有意差を示す。 さらに、VLMの受動的知覚による課題を特定し、重要な文脈情報を見逃し、LLMによる誤った推論につながる可能性がある。 そこで本研究では,学習済みのLLMが問題カテゴリを解析するための問題分類器として機能し,VLMを用いて直接回答するか,あるいは積極的にVLMに集中して関連する視覚要素を収集して,潜在的なコモンセンス推論をサポートするように指示する,ViCorという手法を提案する。 2つのVCRベンチマークデータセット上でフレームワークを評価し、ドメイン内の微調整を必要としない他のメソッドよりも優れています。

In our work, we explore the synergistic capabilities of pre-trained vision-and-language models (VLMs) and large language models (LLMs) on visual commonsense reasoning (VCR) problems. We find that VLMs and LLMs-based decision pipelines are good at different kinds of VCR problems. Pre-trained VLMs exhibit strong performance for problems involving understanding the literal visual content, which we noted as visual commonsense understanding (VCU). For problems where the goal is to infer conclusions beyond image content, which we noted as visual commonsense inference (VCI), VLMs face difficulties, while LLMs, given sufficient visual evidence, can use commonsense to infer the answer well. We empirically validate this by letting LLMs classify VCR problems into these two categories and show the significant difference between VLM and LLM with image caption decision pipelines on two subproblems. Moreover, we identify a challenge with VLMs' passive perception, which may miss crucial context information, leading to incorrect reasoning by LLMs. Based on these, we suggest a collaborative approach, named ViCor, where pre-trained LLMs serve as problem classifiers to analyze the problem category, then either use VLMs to answer the question directly or actively instruct VLMs to concentrate on and gather relevant visual elements to support potential commonsense inferences. We evaluate our framework on two VCR benchmark datasets and outperform all other methods that do not require in-domain fine-tuning.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# EasyGen: BiDiffuser と LLM によるマルチモーダル生成を容易にする

EasyGen: Easing Multimodal Generation with BiDiffuser and LLMs ( http://arxiv.org/abs/2310.08949v3 )

ライセンス: Link先を確認
Xiangyu Zhao, Bo Liu, Qijiong Liu, Guangyuan Shi, Xiao-Ming Wu, (参考訳) 拡散モデルと大言語モデル(LLM)の能力を活用することで、多モーダル理解と生成を向上させるために設計された効率的なモデルであるEasyGenを提案する。CLIPやImageBindのようなエンコーダに依存し、モダリティを橋渡しするために十分なトレーニングデータを必要とする既存のマルチモーダルモデルとは異なり、EasyGenは双方向条件拡散モデルであるBiDiffuserを活用し、より効率的なモーダル相互作用を促進する。 イージーゲンは、BiDiffuser と LLM を連結する投影層を訓練してテキスト生成を実現し、かつ、LLM のテキスト空間と BiDiffuser のイメージ空間を整合させるアダプタを訓練することで、施設画像生成を実現する。 ソースコードはhttps://github.com/zxy556677/EasyGenで入手できる。

We present EasyGen, an efficient model designed to enhance multimodal understanding and generation by harnessing the capabilities of diffusion models and large language models (LLMs), Unlike existing multimodal models that predominately depend on encoders like CLIP or ImageBind and need ample amounts of training data to bridge modalities,EasyGen leverages BiDiffuser,a bidirectional conditional diffusion model, to foster more efficient modality interactions. Easygen achieves text generation by training a projection layer linking BiDiffuser and an LLM, and facilities image generation by training an adapter to align the LLM's text space with the BiDiffuser's image space, Comprehensive quantitative and qualitative experiments show that EasyGen excels in data-efficient training, high-quality image generation, and extendibility, effectively addressing the challenges in multimodal generation. The source code is available at https://github.com/zxy556677/EasyGen.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# スマートマニュファクチャリングにおけるトポロジカルデータ解析

Topological Data Analysis in smart manufacturing ( http://arxiv.org/abs/2310.09319v2 )

ライセンス: Link先を確認
Martin Uray, Barbara Giunti, Michael Kerber, Stefan Huber, (参考訳) トポロジカル・データ・アナリティクス(TDA)は、複雑な多次元データを分析するために代数的トポロジ手法を適用する分野である。 比較的新しい分野であるが、TDAは医学、材料科学、生物学など様々な分野に広く応用されている。 本調査は、工業生産と生産、特に産業4.0の文脈における、動的かつ有望な分野におけるTDAの現状の概要を提供する。 我々は、工業生産および製造環境におけるTDA応用に焦点を当てた厳密で再現可能な文献検索を行った。 特定された作業は、製造プロセス内の適用領域と入力データの種類に基づいて分類される。 我々は、この文脈におけるTDAツールの主な利点を強調し、遭遇した課題とこの分野の将来の可能性に対処する。 さらに, 特定の産業分野において未開拓のTDA法を同定し, 今後の研究の促進をめざして, 適用のメリットについて論じる。 この研究は、TDAの理論的進歩と工業生産の実践的ニーズを橋渡ししようとしている。 我々の目標は、産業生産・製造システムにTDAを適用する実践者や研究者のためのガイドとして機能することである。 我々は、この領域におけるTDAの未解決の可能性を主張し、調査と研究の継続を奨励する。

Topological Data Analysis (TDA) is a discipline that applies algebraic topology techniques to analyze complex, multi-dimensional data. Although it is a relatively new field, TDA has been widely and successfully applied across various domains, such as medicine, materials science, and biology. This survey provides an overview of the state of the art of TDA within a dynamic and promising application area: industrial manufacturing and production, particularly within the Industry 4.0 context. We have conducted a rigorous and reproducible literature search focusing on TDA applications in industrial production and manufacturing settings. The identified works are categorized based on their application areas within the manufacturing process and the types of input data. We highlight the principal advantages of TDA tools in this context, address the challenges encountered and the future potential of the field. Furthermore, we identify TDA methods that are currently underexploited in specific industrial areas and discuss how their application could be beneficial, with the aim of stimulating further research in this field. This work seeks to bridge the theoretical advancements in TDA with the practical needs of industrial production. Our goal is to serve as a guide for practitioners and researchers applying TDA in industrial production and manufacturing systems. We advocate for the untapped potential of TDA in this domain and encourage continued exploration and research.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# 大規模言語モデルでは、より良い文表現学習のための生成を対照的に再定義できる

Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning ( http://arxiv.org/abs/2310.10962v2 )

ライセンス: Link先を確認
Huiming Wang, Zhaodonghui Li, Liying Cheng, Soh De Wen, Lidong Bing, (参考訳) 近年,大きな言語モデル (LLM) が画期的な技術として登場し,その非並列テキスト生成能力が基本文表現学習タスクへの関心を喚起している。 既存の手法では,データアノテータとしてLLMを活用して,SimCSEのようなコントラスト学習に基づく文埋め込みモデルを訓練するための合成データを生成する方法が検討されている。 しかし、コントラスト学習モデルは文対の品質に敏感であるため、これらの手法の有効性はLLMから生成された内容に大きく影響され、文表現学習の文脈においてより洗練された生成の必要性が強調される。 この前提に基づき、多段階のコントラスト表現学習フレームワークであるMultiCSRを提案し、LLMに学習ベース文埋め込みモデルを生成するためのコーパスを3段階(文生成、文ペア構築、バッチ内学習)に分解し、これらの3段階で生成されたコンテンツを洗練し、高品質な文ペアのみがベースコントラスト学習モデルを訓練する。 我々の広範な実験により、MultiCSRは、より高度なLCMがChatGPTの性能を上回り、ChatGPTに適用することで、最先端の成果を達成できることがわかった。 包括的分析は、様々なアプリケーションシナリオにおける我々のフレームワークの可能性をさらに浮き彫りにし、LLMによるより良い文表現学習を実現する。

Recently, large language models (LLMs) have emerged as a groundbreaking technology and their unparalleled text generation capabilities have sparked interest in their application to the fundamental sentence representation learning task. Existing methods have explored utilizing LLMs as data annotators to generate synthesized data for training contrastive learning based sentence embedding models such as SimCSE. However, since contrastive learning models are sensitive to the quality of sentence pairs, the effectiveness of these methods is largely influenced by the content generated from LLMs, highlighting the need for more refined generation in the context of sentence representation learning. Building upon this premise, we propose MultiCSR, a multi-level contrastive sentence representation learning framework that decomposes the process of prompting LLMs to generate a corpus for training base sentence embedding models into three stages (i.e., sentence generation, sentence pair construction, in-batch training) and refines the generated content at these three distinct stages, ensuring only high-quality sentence pairs are utilized to train a base contrastive learning model. Our extensive experiments reveal that MultiCSR enables a less advanced LLM to surpass the performance of ChatGPT, while applying it to ChatGPT achieves better state-of-the-art results. Comprehensive analyses further underscore the potential of our framework in various application scenarios and achieving better sentence representation learning with LLMs.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# 時系列因果グラフの抽象化による全効果の同定可能性

Identifiability of total effects from abstractions of time series causal graphs ( http://arxiv.org/abs/2310.14691v4 )

ライセンス: Link先を確認
Charles K. Assaad, Emilie Devijver, Eric Gaussier, Gregor Gössler, Anouar Meynaoui, (参考訳) 実例では,真の因果グラフの抽象化にのみアクセス可能な状況において,観測時系列からの介入による全効果の識別可能性の問題について検討する。 ここでは、全てのラタグ因果関係を混同するが、ラタグ関係と即時関係を区別する拡張要約因果グラフと、因果関係間の遅延を示さない要約因果グラフの2つの抽象化について考察する。 要約因果グラフでは,全効果が常に識別可能であることを示し,要約因果グラフにおける識別可能性について十分な条件を提供する。 さらに、特定可能な場合の総効果を推定するための調整セットも提供します。

We study the problem of identifiability of the total effect of an intervention from observational time series in the situation, common in practice, where one only has access to abstractions of the true causal graph. We consider here two abstractions: the extended summary causal graph, which conflates all lagged causal relations but distinguishes between lagged and instantaneous relations, and the summary causal graph which does not give any indication about the lag between causal relations. We show that the total effect is always identifiable in extended summary causal graphs and provide sufficient conditions for identifiability in summary causal graphs. We furthermore provide adjustment sets allowing to estimate the total effect whenever it is identifiable.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# AdaptiX - 補助ロボットにおける共有制御アプリケーションの開発と評価のための遷移型XRフレームワーク

AdaptiX -- A Transitional XR Framework for Development and Evaluation of Shared Control Applications in Assistive Robotics ( http://arxiv.org/abs/2310.15887v3 )

ライセンス: Link先を確認
Max Pascher, Felix Ferdinand Goldau, Kirill Kronhardt, Udo Frese, Jens Gerken, (参考訳) 移動性障害のある人々に力を与える努力と、一般市民による技術受容の増大により、協調ロボットアームなどの補助技術が人気を博している。 しかし、彼らの大きな成功は、ユーザビリティの問題、特に自律的な継続性に沿ったユーザ入力とソフトウェア制御の相違によって制限されている。 これを解決するために、共有制御の概念は、目標とするユーザ自律性と特定のレベルのコンピュータ支援を組み合わせる機会を提供する。 本稿では,高解像度シミュレーション環境における共有制御アプリケーションの開発と評価を目的とした,フリーかつオープンソースのAdaptiX XRフレームワークを提案する。 初期のフレームワークは、仮想現実感(VR)の例を含むシミュレーションされたロボットアーム、複数の標準制御インタフェース、特殊な記録/再生システムで構成されている。 AdaptiXは特定の研究ニーズに対して容易に拡張することができ、人間のロボットインタラクション(HRI)研究者は、アイデア、プロトタイピング、評価の初期段階で実際の物理的なロボットアームを必要とすることなく、新しいインタラクション方法、介入戦略、マルチモーダルフィードバックテクニックを迅速に設計し、テストすることができる。 また、ロボット・オペレーティング・システム(ROS)の統合により、シミュレーションと現実のギャップをなくすことなく、実際のロボットアームをPhysicalTwinアプローチで制御することができる。 本稿では,AdaptiXの能力と限界を概観し,その枠組みに基づく3つの研究分野について述べる。 AdaptiXはhttps://adaptix.robot-research.deでアクセスできる。

With the ongoing efforts to empower people with mobility impairments and the increase in technological acceptance by the general public, assistive technologies, such as collaborative robotic arms, are gaining popularity. Yet, their widespread success is limited by usability issues, specifically the disparity between user input and software control along the autonomy continuum. To address this, shared control concepts provide opportunities to combine the targeted increase of user autonomy with a certain level of computer assistance. This paper presents the free and open-source AdaptiX XR framework for developing and evaluating shared control applications in a high-resolution simulation environment. The initial framework consists of a simulated robotic arm with an example scenario in Virtual Reality (VR), multiple standard control interfaces, and a specialized recording/replay system. AdaptiX can easily be extended for specific research needs, allowing Human-Robot Interaction (HRI) researchers to rapidly design and test novel interaction methods, intervention strategies, and multi-modal feedback techniques, without requiring an actual physical robotic arm during the early phases of ideation, prototyping, and evaluation. Also, a Robot Operating System (ROS) integration enables the controlling of a real robotic arm in a PhysicalTwin approach without any simulation-reality gap. Here, we review the capabilities and limitations of AdaptiX in detail and present three bodies of research based on the framework. AdaptiX can be accessed at https://adaptix.robot-research.de.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# ワッサーシュタイン空間における近位勾配勾配によるフローベース生成モデルの収束

Convergence of flow-based generative models via proximal gradient descent in Wasserstein space ( http://arxiv.org/abs/2310.17582v2 )

ライセンス: Link先を確認
Xiuyuan Cheng, Jianfeng Lu, Yixin Tan, Yao Xie, (参考訳) フローベースの生成モデルは、データ生成と可能性の計算において一定の利点を享受し、最近は競争力のある経験的性能を示している。 関連するスコアベース拡散モデルに関する累積理論的研究と比較すると、前(データ・ツー・ノイズ)と逆(ノイズ・トゥ・データ)のどちらにおいても決定論的であるフローベースモデルの解析は依然として少ないままである。 本稿では,Jordan-Kinderleherer-Otto(JKO)方式を正規化フローネットワークに実装した,プログレッシブフローモデルであるJKOフローモデルによりデータ分散を生成する理論的保証を提供する。 ワッサーシュタイン空間における近位勾配降下(GD)の指数収束を利用して、JKOフローモデルによるデータ生成のKL(Kullback-Leibler)保証が$O(\varepsilon^2)$であると証明し、$N \lesssim \log (1/\varepsilon)$多くのJKOステップ(フロー内のResidual Blocks)を使用する場合、$\varepsilon $はステップ1次条件の誤差である。 データ密度の仮定は単に有限第二モーメントであり、この理論は密度のないデータ分布と、KL-$W_2$混合誤差を保証する逆過程に逆誤差が存在する場合に拡張される。 JKO型 $W_2$-proximal GD の非漸近収束速度は、KL の発散を特別な場合として含む凸目的函数の一般クラスに対して証明され、これは独立な関心を持つことができる。 解析フレームワークはフローベース生成モデルに適用された他の一階ワッサーシュタイン最適化スキームにまで拡張することができる。

Flow-based generative models enjoy certain advantages in computing the data generation and the likelihood, and have recently shown competitive empirical performance. Compared to the accumulating theoretical studies on related score-based diffusion models, analysis of flow-based models, which are deterministic in both forward (data-to-noise) and reverse (noise-to-data) directions, remain sparse. In this paper, we provide a theoretical guarantee of generating data distribution by a progressive flow model, the so-called JKO flow model, which implements the Jordan-Kinderleherer-Otto (JKO) scheme in a normalizing flow network. Leveraging the exponential convergence of the proximal gradient descent (GD) in Wasserstein space, we prove the Kullback-Leibler (KL) guarantee of data generation by a JKO flow model to be $O(\varepsilon^2)$ when using $N \lesssim \log (1/\varepsilon)$ many JKO steps ($N$ Residual Blocks in the flow) where $\varepsilon $ is the error in the per-step first-order condition. The assumption on data density is merely a finite second moment, and the theory extends to data distributions without density and when there are inversion errors in the reverse process where we obtain KL-$W_2$ mixed error guarantees. The non-asymptotic convergence rate of the JKO-type $W_2$-proximal GD is proved for a general class of convex objective functionals that includes the KL divergence as a special case, which can be of independent interest. The analysis framework can extend to other first-order Wasserstein optimization schemes applied to flow-based generative models.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# 反復的パラメータアライメントを用いた分岐領域間のクロスサイロフェデレーション学習

Cross-Silo Federated Learning Across Divergent Domains with Iterative Parameter Alignment ( http://arxiv.org/abs/2311.04818v5 )

ライセンス: Link先を確認
Matt Gorbett, Hossein Shirazi, Indrakshi Ray, (参考訳) プライベートソースに分散したデータの集合的知識から学ぶことは、一般化機能を強化したニューラルネットワークを提供することができる。 リモートクライアント間で機械学習モデルを協調的にトレーニングするフェデレーション学習は、中央サーバのオーケストレーションを通じてクライアントモデルを組み合わせることで、これを実現する。 しかし、現在のアプローチには2つの限界がある。 一 クライアントドメインが十分に異なるとき、収束に苦しむこと。 二 現在の集約技術は、各クライアントに対して同一のグローバルモデルを作成します。 本研究では,一つのグローバルモデルを学ぶのではなく,共通の目的のために最適化されたNモデルを学ぶ。 これを実現するために、ピアツーピアトポロジで共有されるモデルパラメータに重み付き距離最小化を適用する。 結果のフレームワークであるイテレーティブパラメータアライメント(Iterative Parameter Alignment)は、クロスサイロ設定に自然に適用され、以下の特性を持つ。 一 参加者ごとに一意の解決策であって、各モデルを連合にグローバルに収束させる選択肢があるもの (II) 協調学習環境において, 相手同士の公平性を付与するオプションの早期学習機構について検討した。 これらの特徴は、異なるデータセットでトレーニングされたピアモデルから反復的に学習するフレキシブルな新しいフレームワークを共同で提供する。 この技術は、最先端のアプローチと比較して、様々なデータパーティションにおける競合的な結果が得られることがわかった。 さらに、既存のアプローチが苦労している領域(例えば、ピア間での解離クラス)に頑健であることを示す。

Learning from the collective knowledge of data dispersed across private sources can provide neural networks with enhanced generalization capabilities. Federated learning, a method for collaboratively training a machine learning model across remote clients, achieves this by combining client models via the orchestration of a central server. However, current approaches face two critical limitations: i) they struggle to converge when client domains are sufficiently different, and ii) current aggregation techniques produce an identical global model for each client. In this work, we address these issues by reformulating the typical federated learning setup: rather than learning a single global model, we learn N models each optimized for a common objective. To achieve this, we apply a weighted distance minimization to model parameters shared in a peer-to-peer topology. The resulting framework, Iterative Parameter Alignment, applies naturally to the cross-silo setting, and has the following properties: (i) a unique solution for each participant, with the option to globally converge each model in the federation, and (ii) an optional early-stopping mechanism to elicit fairness among peers in collaborative learning settings. These characteristics jointly provide a flexible new framework for iteratively learning from peer models trained on disparate datasets. We find that the technique achieves competitive results on a variety of data partitions compared to state-of-the-art approaches. Further, we show that the method is robust to divergent domains (i.e. disjoint classes across peers) where existing approaches struggle.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-17
# トランスポーズ攻撃:双方向トレーニングによるデータセットのステアリング

Transpose Attack: Stealing Datasets with Bidirectional Training ( http://arxiv.org/abs/2311.07389v2 )

ライセンス: Link先を確認
Guy Amit, Mosh Levy, Yisroel Mirsky, (参考訳) ディープニューラルネットワークは通常、前方で実行される。 しかし、本研究では、モデルが異なるタスクの方向と方向の両方でトレーニングできる脆弱性を特定します。 敵は、この能力を利用して、一見正当なモデルの中にローグモデルを隠すことができる。 さらに、本研究では、ニューラルネットワークがデータセットから特定のサンプルを体系的に記憶し、検索するように教えられることを示す。 これらの知見は,保護された学習環境から正当性のあるモデルの下でデータセットを抽出する新たな手法を明らかにするものである。 データ流出攻撃に焦点をあてて、現代のアーキテクチャは秘密裏に数万のサンプルを秘密裏に流出させ、データのプライバシーを侵害したり、新しいモデルを訓練したりできることを示す。 さらに、この脅威を軽減するために、感染モデルを検出するための新しいアプローチを提案する。

Deep neural networks are normally executed in the forward direction. However, in this work, we identify a vulnerability that enables models to be trained in both directions and on different tasks. Adversaries can exploit this capability to hide rogue models within seemingly legitimate models. In addition, in this work we show that neural networks can be taught to systematically memorize and retrieve specific samples from datasets. Together, these findings expose a novel method in which adversaries can exfiltrate datasets from protected learning environments under the guise of legitimate models. We focus on the data exfiltration attack and show that modern architectures can be used to secretly exfiltrate tens of thousands of samples with high fidelity, high enough to compromise data privacy and even train new models. Moreover, to mitigate this threat we propose a novel approach for detecting infected models.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# 量子回路の最小等角理論

Minimal Equational Theories for Quantum Circuits ( http://arxiv.org/abs/2311.07476v2 )

ライセンス: Link先を確認
Alexandre Clément, Noé Delorme, Simon Perdrix, (参考訳) 量子回路に対する最初の最小かつ完全方程式理論を導入する。 したがって、量子回路上の真の方程式は単純な規則から導出できることが示され、これらは全て新しいが直感的なものを除いて標準であり、マルチコントロールの2/pi$回転は同一性に他ならない。 我々の研究は、量子回路の最近の完全方程式理論を改善し、かなり非現実的なものを含むいくつかの規則を排除した。 私たちの主な貢献の一つは方程式理論の最小性を証明することである。 より一般に、量子回路上の任意の完全方程式理論(すべてのゲートがユニタリであるとき)は、非有界な数の量子ビットに作用する規則を必要とすることを実証する。 最後に、Acillary qubits や/または qubit discarding を含む量子回路の完全方程式理論を単純化する。

We introduce the first minimal and complete equational theory for quantum circuits. Hence, we show that any true equation on quantum circuits can be derived from simple rules, all of them being standard except a novel but intuitive one which states that a multi-control $2\pi$ rotation is nothing but the identity. Our work improves on the recent complete equational theories for quantum circuits, by getting rid of several rules including a fairly impractical one. One of our main contributions is to prove the minimality of the equational theory, i.e. none of the rules can be derived from the other ones. More generally, we demonstrate that any complete equational theory on quantum circuits (when all gates are unitary) requires rules acting on an unbounded number of qubits. Finally, we also simplify the complete equational theories for quantum circuits with ancillary qubits and/or qubit discarding.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# 抽象推論による時間的知識質問応答

Temporal Knowledge Question Answering via Abstract Reasoning Induction ( http://arxiv.org/abs/2311.09149v2 )

ライセンス: Link先を確認
Ziyang Chen, Dongfang Li, Xiang Zhao, Baotian Hu, Min Zhang, (参考訳) 本研究では,Large Language Models (LLMs) における時間的知識推論の課題に対処する。 LLMはこのタスクにしばしば苦労し、不正確な反応や誤解を招く反応を生み出す。 この問題は主として、進化する事実知識と複雑な時間論理を扱う能力の限界から生じる。 これらの制約を克服するために、時間的推論を知識に依存しないものと知識に基づく2つの相に分割する抽象推論誘導(ARI)フレームワークを提案する。 このフレームワークは、外部ノイズデータの取り込みを最小限に抑えつつ、LLMへの事実知識サポートを提供する。 コンストラクティビズムの原則により、ARIはLLMに対して、正しい歴史的推論サンプルと間違った歴史的推論サンプルの両方から、積極的に自己指向的な学習を行う能力を提供する。 LLMに知識と手法を積極的に構築するように教えることで、時間的推論能力を大幅に向上させることができる。 提案手法は2つの時間的QAデータセットに対して29.7%と9.27%の相対的な増加を達成し,LLMにおける時間的推論の促進効果を裏付けるものである。 コードはhttps://github.com/czy 1999/ARI-QAで確認できる。

In this study, we address the challenge of enhancing temporal knowledge reasoning in Large Language Models (LLMs). LLMs often struggle with this task, leading to the generation of inaccurate or misleading responses. This issue mainly arises from their limited ability to handle evolving factual knowledge and complex temporal logic. To overcome these limitations, we propose Abstract Reasoning Induction (ARI) framework, which divides temporal reasoning into two distinct phases: Knowledge-agnostic and Knowledge-based. This framework offers factual knowledge support to LLMs while minimizing the incorporation of extraneous noisy data. Concurrently, informed by the principles of constructivism, ARI provides LLMs the capability to engage in proactive, self-directed learning from both correct and incorrect historical reasoning samples. By teaching LLMs to actively construct knowledge and methods, it can significantly boosting their temporal reasoning abilities. Our approach achieves remarkable improvements, with relative gains of 29.7% and 9.27% on two temporal QA datasets, underscoring its efficacy in advancing temporal reasoning in LLMs. The code can be found at https://github.com/czy1999/ARI-QA
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# 機械スーパービジョンへのシフト:自動医用画像分割・分類のための注釈効率の良いセミ・セルフ・スーパービジョン学習

Shifting to Machine Supervision: Annotation-Efficient Semi and Self-Supervised Learning for Automatic Medical Image Segmentation and Classification ( http://arxiv.org/abs/2311.10319v6 )

ライセンス: Link先を確認
Pranav Singh, Raviteja Chukkapalli, Shravan Chaudhari, Luoyao Chen, Mei Chen, Jinqian Pan, Craig Smuda, Jacopo Cirrone, (参考訳) 臨床治療の進歩は、大量の注釈付きデータに依存する教師付き学習技術の限界によって、ますます制限されている。 アノテーションのプロセスは費用がかかるだけでなく、臨床専門家にかなりの時間を要する。 本稿では,S4MI(Self-Supervision and Semi-Supervision for Medical Imaging)パイプラインを導入する。 これらの技術はラベリングを必要としない補助的なタスクに携わり、完全に教師された手法に比べて機械の監督のスケーリングを簡素化する。 本研究は、これらの手法を3つの異なる医用画像データセット上で評価し、分類と分割作業の有効性を評価する。 特に, 自己教師付き学習が, 全ての評価データセットの分類において, 教師付き手法の性能を大幅に上回っていることがわかった。 注目すべきは、半教師付きアプローチはセグメンテーションにおいて優れた結果を示し、全データセットで50%少ないラベルを使用しながら、完全な教師付き手法よりも優れた結果を示したことだ。 科学コミュニティへのコントリビューションへのコミットメントに合わせて、私たちはS4MIコードを公開して、より広範な適用とこれらの手法のさらなる開発を可能にしました。

Advancements in clinical treatment are increasingly constrained by the limitations of supervised learning techniques, which depend heavily on large volumes of annotated data. The annotation process is not only costly but also demands substantial time from clinical specialists. Addressing this issue, we introduce the S4MI (Self-Supervision and Semi-Supervision for Medical Imaging) pipeline, a novel approach that leverages advancements in self-supervised and semi-supervised learning. These techniques engage in auxiliary tasks that do not require labeling, thus simplifying the scaling of machine supervision compared to fully-supervised methods. Our study benchmarks these techniques on three distinct medical imaging datasets to evaluate their effectiveness in classification and segmentation tasks. Notably, we observed that self supervised learning significantly surpassed the performance of supervised methods in the classification of all evaluated datasets. Remarkably, the semi-supervised approach demonstrated superior outcomes in segmentation, outperforming fully-supervised methods while using 50% fewer labels across all datasets. In line with our commitment to contributing to the scientific community, we have made the S4MI code openly accessible, allowing for broader application and further development of these methods.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# DSD-DA:ドメイン適応型物体検出のための蒸留源デバイアス

DSD-DA: Distillation-based Source Debiasing for Domain Adaptive Object Detection ( http://arxiv.org/abs/2311.10437v2 )

ライセンス: Link先を確認
Yongchao Feng, Shiwei Li, Yingjie Gao, Ziyue Huang, Yanan Zhang, Qingjie Liu, Yunhong Wang, (参考訳) 特徴調整に基づくドメイン適応オブジェクト検出(DAOD)法は顕著な進歩を遂げているが、ソースバイアスの問題を無視している。 さらに、これらの手法は、ソースドメインと比較して、ターゲットドメインにおける一貫した分類とローカライゼーションを達成する上で、より深刻な課題に直面します。 これらの課題を克服するために、DAODのための新しいDSDフレームワークを提案する。これは、事前訓練された教師モデルからドメインに依存しない知識を抽出し、両方のドメインにおける検出器の性能を向上させる。 さらに,ターゲット関連オブジェクト局所化ネットワーク (TROLN) を設計し,ソースとターゲットスタイルの混合データからターゲット関連ローカライゼーション情報をマイニングする。 そこで本研究では、これらの情報を新たなローカライズ表現に定式化し、テスト段階での分類スコアをさらに洗練し、分類とローカライゼーションの調和を実現するドメイン認識一貫性向上(DCE)戦略を提案する。 この手法の有効性を示すために大規模な実験が行われており、これは既存のアライメントに基づく作業よりも優れた、大きなマージンによる強いベースラインを一貫して改善するものである。

Though feature-alignment based Domain Adaptive Object Detection (DAOD) methods have achieved remarkable progress, they ignore the source bias issue, i.e., the detector tends to acquire more source-specific knowledge, impeding its generalization capabilities in the target domain. Furthermore, these methods face a more formidable challenge in achieving consistent classification and localization in the target domain compared to the source domain. To overcome these challenges, we propose a novel Distillation-based Source Debiasing (DSD) framework for DAOD, which can distill domain-agnostic knowledge from a pre-trained teacher model, improving the detector's performance on both domains. In addition, we design a Target-Relevant Object Localization Network (TROLN), which can mine target-related localization information from source and target-style mixed data. Accordingly, we present a Domain-aware Consistency Enhancing (DCE) strategy, in which these information are formulated into a new localization representation to further refine classification scores in the testing stage, achieving a harmonization between classification and localization. Extensive experiments have been conducted to manifest the effectiveness of this method, which consistently improves the strong baseline by large margins, outperforming existing alignment-based works.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# CG-HOI:接触誘導型3次元物体インタラクション生成

CG-HOI: Contact-Guided 3D Human-Object Interaction Generation ( http://arxiv.org/abs/2311.16097v2 )

ライセンス: Link先を確認
Christian Diller, Angela Dai, (参考訳) 本稿では,テキストから動的3次元オブジェクト間相互作用(HOI)を生成するタスクに最初に対処するCG-HOIを提案する。 我々は、人間と物体の両方の動きを相互依存的にモデル化する。 我々の重要な洞察は、トレーニングと推論の両方において、人体表面と物体形状との間の接触を明示的にモデル化することが強力なプロキシガイダンスとして使用できることである。 このガイダンスを用いて人間と物体の動きをブリッジすることで、より現実的で物理的に妥当な相互作用シーケンスを生成し、そこで人体とそれに対応する物体がコヒーレントに動く。 本手法はまず, 関節拡散過程における人体の動き, 物体の動き, 接触のモデル化を学習する。 そして、この学習された接触を利用して、推論中に指導を行い、現実的で一貫性のあるHOIを合成する。 広範囲な評価により,我々の関節接触に基づく人間-物体相互作用アプローチは,現実的かつ物理的に妥当なシーケンスを生成できることが示され,本手法の能力を強調する2つの応用が示された。 対象物軌跡に条件付きで、再学習することなく、対応する人間の動きを生成でき、強い人間-物体相互依存学習を示す。 われわれのアプローチはフレキシブルで、静的な現実世界の3Dシーンスキャンにも適用できる。

We propose CG-HOI, the first method to address the task of generating dynamic 3D human-object interactions (HOIs) from text. We model the motion of both human and object in an interdependent fashion, as semantically rich human motion rarely happens in isolation without any interactions. Our key insight is that explicitly modeling contact between the human body surface and object geometry can be used as strong proxy guidance, both during training and inference. Using this guidance to bridge human and object motion enables generating more realistic and physically plausible interaction sequences, where the human body and corresponding object move in a coherent manner. Our method first learns to model human motion, object motion, and contact in a joint diffusion process, inter-correlated through cross-attention. We then leverage this learned contact for guidance during inference to synthesize realistic and coherent HOIs. Extensive evaluation shows that our joint contact-based human-object interaction approach generates realistic and physically plausible sequences, and we show two applications highlighting the capabilities of our method. Conditioned on a given object trajectory, we can generate the corresponding human motion without re-training, demonstrating strong human-object interdependency learning. Our approach is also flexible, and can be applied to static real-world 3D scene scans.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# 統一バイナリとマルチクラスマージンベース分類

Unified Binary and Multiclass Margin-Based Classification ( http://arxiv.org/abs/2311.17778v2 )

ライセンス: Link先を確認
Yutong Wang, Clayton Scott, (参考訳) マージン損失の概念は、二項分類のためのアルゴリズムの開発と分析の中心となっている。 しかし、今のところ、マルチクラス分類におけるマージン損失の類似性については合意が得られていない。 本研究では,多くの人気関数を含む幅広い多クラス損失関数が,二項損失のマージン形式を一般化した相対的マージン形式で表現可能であることを示す。 これまでの研究(Wang and Scott, 2020, 2021)で示されているように、相対的マージン形式は多クラス損失の理解と分析に広く有用である。 マルチクラス損失を表すこの方法の有用性をさらに実証するために、Bartlett et al (2006) の初等的な結果をマルチクラスに分類・校正する。 次に、Fenchel-Young の損失のクラスを分析し、これらの損失の集合を分類校正(class-calibrated)として拡張する。

The notion of margin loss has been central to the development and analysis of algorithms for binary classification. To date, however, there remains no consensus as to the analogue of the margin loss for multiclass classification. In this work, we show that a broad range of multiclass loss functions, including many popular ones, can be expressed in the relative margin form, a generalization of the margin form of binary losses. The relative margin form is broadly useful for understanding and analyzing multiclass losses as shown by our prior work (Wang and Scott, 2020, 2021). To further demonstrate the utility of this way of expressing multiclass losses, we use it to extend the seminal result of Bartlett et al. (2006) on classification-calibration of binary margin losses to multiclass. We then analyze the class of Fenchel-Young losses, and expand the set of these losses that are known to be classification-calibrated.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# 最適量子鍵分配ネットワーク:容量対セキュリティ

Optimal quantum key distribution networks: capacitance versus security ( http://arxiv.org/abs/2312.04221v3 )

ライセンス: Link先を確認
Lorenzo Cirigliano, Valentina Brosco, Claudio Castellano, Claudio Conti, Laura Pilozzi, (参考訳) 量子通信ネットワークの任意の点に配置されたユーザ間の量子通信の速度とセキュリティは、ネットワークの構造、その拡張、および通信チャネルの性質に依存する。 本研究では,古典的ネットワークアプローチと量子情報理論を融合した信頼性リレーネットワークの最適化戦略を提案する。 具体的には、量子通信効率関数を適切に定義することにより、セキュリティと量子通信速度のバランスをとることにより、ネットワークを介して最適な量子通信接続を識別する。 最適化されたネットワークは、最大量子通信効率接続のネットワークとして構築され、その性能は、平均特性のスケーリングをノード数とネットワーク空間拡張の関数として研究することで評価される。

The rate and security of quantum communications between users placed at arbitrary points of a quantum communication network depend on the structure of the network, on its extension and on the nature of the communication channels. In this work we propose a strategy for the optimization of trusted-relays based networks that intertwines classical network approaches and quantum information theory. Specifically, by suitably defining a quantum communication efficiency functional, we identify the optimal quantum communication connections through the network by balancing security and the quantum communication rate. The optimized network is then constructed as the network of the maximal quantum communication efficiency connections and its performance is evaluated by studying the scaling of average properties as functions of the number of nodes and of the network spatial extension.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# 人間対大規模言語モデル:AIの先進時代における判断予測

Humans vs Large Language Models: Judgmental Forecasting in an Era of Advanced AI ( http://arxiv.org/abs/2312.06941v2 )

ライセンス: Link先を確認
MAhdi Abolghasemi, Odkhishig Ganbold, Kristian Rotaru, (参考訳) 本研究では,小売業における人的専門家と大規模言語モデル(LLM)の予測精度について検討した。 123人の予測装置とChatGPT4, ChatGPT3.5, Bard, Bing, Llama2を含む5つのLCMを用いて, 平均絶対誤差による予測精度の評価を行った。 本分析は, 統計モデル(ベースライン, 高度), 製品が促進されているか, 外的影響の性質など, 予測性能に及ぼす因子の影響に着目した。 以上の結果から,LSMは予測精度において常に人間より優れておらず,高度な統計予測モデルでは予測器やLSMの性能が一様に向上しないことがわかった。 人間とLLMの予測者は、特にプロモーション期間と、ポジティブな外部影響の影響下で、予測誤差が増大した。 本研究は, LLMを実用的な予測プロセスに統合する際の注意深い考察を提唱するものである。

This study investigates the forecasting accuracy of human experts versus Large Language Models (LLMs) in the retail sector, particularly during standard and promotional sales periods. Utilizing a controlled experimental setup with 123 human forecasters and five LLMs, including ChatGPT4, ChatGPT3.5, Bard, Bing, and Llama2, we evaluated forecasting precision through Mean Absolute Percentage Error. Our analysis centered on the effect of the following factors on forecasters performance: the supporting statistical model (baseline and advanced), whether the product was on promotion, and the nature of external impact. The findings indicate that LLMs do not consistently outperform humans in forecasting accuracy and that advanced statistical forecasting models do not uniformly enhance the performance of either human forecasters or LLMs. Both human and LLM forecasters exhibited increased forecasting errors, particularly during promotional periods and under the influence of positive external impacts. Our findings call for careful consideration when integrating LLMs into practical forecasting processes.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# 差分的プロジェクション深度に基づく中央値

Differentially private projection-depth-based medians ( http://arxiv.org/abs/2312.07792v2 )

ライセンス: Link先を確認
Kelly Ramsay, Dylan Spicker, (参考訳) 我々は,提案-テスト-リリース (PTR) と指数的メカニズムを用いて,$(\epsilon,\delta)$-differentially private projection-depth-based mediansを開発する。 入力パラメータと集団測度(例えば、モーメント境界を仮定しない)の一般的な条件の下では、PTRにおけるテストが失敗する確率と、有限サンプル偏差境界によるプライバシーのコストを定量化する。 次に, 有限試料分解点の新たな定義を, 機構に適用し, 投射深度中央値の有限試料分解点に対する下限を示す。 本研究は, 標準射影深度に基づく中央値と, トリミング推定器から得られた投射深度に基づく中央値について, 主な結果を示す。 ガウス的設定では、結果として生じる偏差境界が、プライベートガウス平均推定の既知の下界と一致することを示す。 Cauchyの設定では、重みによる「異常増幅」効果がプライバシのコストを上回ることを示した。 この結果は数値シミュレーションによって検証される。 さらに、一般のPTR機構と、一般の関心を持つであろう順序統計の投射間隔に対する均一な濃度結果を示す。

We develop $(\epsilon,\delta)$-differentially private projection-depth-based medians using the propose-test-release (PTR) and exponential mechanisms. Under general conditions on the input parameters and the population measure, (e.g. we do not assume any moment bounds), we quantify the probability the test in PTR fails, as well as the cost of privacy via finite sample deviation bounds. We then present a new definition of the finite sample breakdown point which applies to a mechanism, and present a lower bound on the finite sample breakdown point of the projection-depth-based median. We demonstrate our main results on the canonical projection-depth-based median, as well as on projection-depth-based medians derived from trimmed estimators. In the Gaussian setting, we show that the resulting deviation bound matches the known lower bound for private Gaussian mean estimation. In the Cauchy setting, we show that the "outlier error amplification" effect resulting from the heavy tails outweighs the cost of privacy. This result is then verified via numerical simulations. Additionally, we present results on general PTR mechanisms and a uniform concentration result on the projected spacings of order statistics, which may be of general interest.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# 行列積作用素のブロック符号化

Block encoding of matrix product operators ( http://arxiv.org/abs/2312.08861v2 )

ライセンス: Link先を確認
Martina Nibbi, Christian B. Mendl, (参考訳) 量子信号処理と量子固有値変換が組み合わさって、近年、いくつかの量子アルゴリズムの統一フレームワークとして登場した。 ブロック符号化は、より大きいユニタリのハミルトニアンを符号化するものであり、信号処理は、回転ゲートを使ってそのようなハミルトニアンをほぼ任意の多項式変換する。 全体のボトルネックは一般的にブロック符号化によって構成され、近年ではこの問題を克服するためにいくつかの問題固有の技術が導入されている。 このフレームワーク内では、行列積演算子(MPO)表現に基づいてハミルトニアンをブロックエンコードする手順を示す。 具体的には、すべてのMPOテンソルを次元$D+2$の大きいユニタリでエンコードし、$D = \lceil\log(\chi)\rceil$は、仮想結合次元$\chi$と対数的にスケールするその後に縮約された量子ビットの数である。 ブロック符号化回路を分解する1ビットと2ビットのゲートの数は$\mathcal{O}(L\cdot\chi^2)$とスケールする。

Quantum signal processing combined with quantum eigenvalue transformation has recently emerged as a unifying framework for several quantum algorithms. In its standard form, it consists of two separate routines: block encoding, which encodes a Hamiltonian in a larger unitary, and signal processing, which achieves an almost arbitrary polynomial transformation of such a Hamiltonian using rotation gates. The bottleneck of the entire operation is typically constituted by block encoding and, in recent years, several problem-specific techniques have been introduced to overcome this problem. Within this framework, we present a procedure to block-encode a Hamiltonian based on its matrix product operator (MPO) representation. More specifically, we encode every MPO tensor in a larger unitary of dimension $D+2$, where $D = \lceil\log(\chi)\rceil$ is the number of subsequently contracted qubits that scales logarithmically with the virtual bond dimension $\chi$. Given any system of size $L$, our method requires $L+D$ ancillary qubits in total, while the number of one- and two-qubit gates decomposing the block encoding circuit scales as $\mathcal{O}(L\cdot\chi^2)$.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# 時空間データに対する変モード分解に基づく非定常コヒーレント構造解析

Variational Mode Decomposition-Based Nonstationary Coherent Structure Analysis for Spatiotemporal Data ( http://arxiv.org/abs/2312.12113v2 )

ライセンス: Link先を確認
Yuya Ohmichi, (参考訳) 従来のモーダル解析手法では、過渡現象、非周期現象、断続現象などの非定常現象を扱うのが困難である。 本稿では,高次元時空間データから非定常現象の場合のコヒーレント構造の抽出と解析を可能にする変分モード分解に基づく非定常コヒーレント構造(VMD-NCS)解析を提案する。 VMD-NCS分析は、入力時空間データを非定常時空間パターンを表す固有コヒーレント構造(ICS)に分解し、空間的および時間的方向の両方でコヒーレンスを示す。 多くの従来のモーダル解析手法とは異なり,提案手法は時間的空間分布の時間的変化を考慮に入れている。 VMD-NCS解析はシリンダーまわりの流れの過渡的な成長現象に基づいて検証された。 震源付近の変動が徐々に接近する渦シェディングの経時的成長を反映した空間分布の時間的変化を,ICSとして表現することが確認された。 さらに, 投球翼まわりの準周期流場の解析において, 翼の投球運動の影響を受けながら, 翼後方の渦流の空間分布と振幅の時間的変化を単一のICSとして捉えた。 ICS数を制御する2つのパラメータ(K$)と時間的コヒーレンスに関連するペナルティ要因(\alpha$)について検討した。 その結果、$K$はVMD-NCS分析結果に大きな影響を及ぼすことがわかった。 比較的高いK$の場合、VMD-NCS解析は、動的モード分解の結果に似た、より周期的な時空間パターンを抽出する傾向にある。 小さな$K$の場合、より非定常な時空間パターンを抽出する傾向がある。

The conventional modal analysis techniques face difficulties in handling nonstationary phenomena, such as transient, nonperiodic, or intermittent phenomena. This paper presents a variational mode decomposition--based nonstationary coherent structure (VMD-NCS) analysis that enables the extraction and analysis of coherent structures in the case of nonstationary phenomena from high-dimensional spatiotemporal data. The VMD-NCS analysis decomposes the input spatiotemporal data into intrinsic coherent structures (ICSs) that represent nonstationary spatiotemporal patterns and exhibit coherence in both spatial and temporal directions. Unlike many conventional modal analysis techniques, the proposed method accounts for the temporal changes in the spatial distribution with time. Tthe VMD-NCS analysis was validated based on the transient growth phenomena in the flow around a cylinder. It was confirmed that the temporal changes in the spatial distribution, depicting the transient growth of vortex shedding where fluctuations arising in the far-wake region gradually approach the near-wake region, were represented as a single ICS. Furthermore, in the analysis of the quasi-periodic flow field around a pitching airfoil, the temporal changes in the spatial distribution and the amplitude of vortex shedding behind the airfoil, influenced by the pitching motion of the airfoil, were captured as a single ICS. The impact of two parameters that control the number of ICSs ($K$) and the penalty factor related to the temporal coherence ($\alpha$), was investigated. The results revealed that $K$ has a significant impact on the VMD-NCS analysis results. In the case of a relatively high $K$, the VMD-NCS analysis tends to extract more periodic spatiotemporal patterns resembling the results of dynamic mode decomposition. In the case of a small $K$, it tends to extract more nonstationary spatiotemporal patterns.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# プライミングアタックによるオープンソースLDMの安全性トレーニングの回避

Bypassing the Safety Training of Open-Source LLMs with Priming Attacks ( http://arxiv.org/abs/2312.12321v2 )

ライセンス: Link先を確認
Jason Vega, Isha Chaudhary, Changming Xu, Gagandeep Singh, (参考訳) 近年LLMの人気が高まっているため、LLMの安全訓練の必要性はますます高まっている。 本稿では,SOTA オープンソース LLM の脆弱性を,安全訓練からのアライメントを効果的に回避し,実行が容易な$\textit{priming attack}$ と呼ぶ,シンプルで最適化のない攻撃下で検討する。 我々の提案した攻撃は、Llama Guardが測定した有害行動に対する攻撃成功率を、ベースラインと比較して最大3.3\times$で改善する。 ソースコードとデータはhttps://github.com/uiuc-focal-lab/llm-priming- attacksで公開されている。

With the recent surge in popularity of LLMs has come an ever-increasing need for LLM safety training. In this paper, we investigate the fragility of SOTA open-source LLMs under simple, optimization-free attacks we refer to as $\textit{priming attacks}$, which are easy to execute and effectively bypass alignment from safety training. Our proposed attack improves the Attack Success Rate on Harmful Behaviors, as measured by Llama Guard, by up to $3.3\times$ compared to baselines. Source code and data are available at https://github.com/uiuc-focal-lab/llm-priming-attacks.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-17
# RAGTruth: 信頼できる検索強化言語モデルを開発するための幻覚コーパス

RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models ( http://arxiv.org/abs/2401.00396v2 )

ライセンス: Link先を確認
Cheng Niu, Yuanhao Wu, Juno Zhu, Siliang Xu, Kashun Shum, Randy Zhong, Juntong Song, Tong Zhang, (参考訳) Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚を緩和する主要な技術となっている。 RAGが統合されているにもかかわらず、LLMは検索された内容に対してまだサポートされていない、あるいは矛盾している主張をすることができる。 RAGの下で効果的な幻覚予防戦略を開発するためには,幻覚の程度を計測できるベンチマークデータセットを作成することが重要である。 本稿では,LLMアプリケーションのための標準RAGフレームワーク内で,様々なドメインやタスクにおける単語レベルの幻覚を解析するためのコーパスであるRAGTruthについて述べる。 RAGTruth は、RAG を用いて様々な LLM から18,000 個の自然発生応答を合成する。 これらの反応は個々の症例と単語レベルの両方で微妙な手動アノテーションを受けており、幻覚強度の評価を取り入れている。 我々は、異なるLLMの幻覚周波数をベンチマークするだけでなく、既存の幻覚検出手法の有効性を批判的に評価する。 さらに、RAGTruthのような高品質なデータセットを使うことで、GPT-4のような最先端の大規模言語モデルを用いた既存のプロンプトベースのアプローチと比較して、比較的小さなLCMを微調整し、幻覚検出における競合レベルの性能を実現することができることを示す。

Retrieval-augmented generation (RAG) has become a main technique for alleviating hallucinations in large language models (LLMs). Despite the integration of RAG, LLMs may still present unsupported or contradictory claims to the retrieved contents. In order to develop effective hallucination prevention strategies under RAG, it is important to create benchmark datasets that can measure the extent of hallucination. This paper presents RAGTruth, a corpus tailored for analyzing word-level hallucinations in various domains and tasks within the standard RAG frameworks for LLM applications. RAGTruth comprises nearly 18,000 naturally generated responses from diverse LLMs using RAG. These responses have undergone meticulous manual annotations at both the individual cases and word levels, incorporating evaluations of hallucination intensity. We not only benchmark hallucination frequencies across different LLMs, but also critically assess the effectiveness of several existing hallucination detection methodologies. Furthermore, we show that using a high-quality dataset such as RAGTruth, it is possible to finetune a relatively small LLM and achieve a competitive level of performance in hallucination detection when compared to the existing prompt-based approaches using state-of-the-art large language models such as GPT-4.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# 内部的一貫した記述に対するRQMの仮定の正当性としての大沢の射影間理論

Ozawa's Intersubjectivity Theorem as justification of RQM's postulate on internally consistent descriptions ( http://arxiv.org/abs/2401.06185v4 )

ライセンス: Link先を確認
Andrei Khrennikov, (参考訳) OIT(Intersubjectivity Theorem)は、量子測定理論の中で証明され、内部的に一貫した記述に基づく関係量子力学(RQM)の新しい仮定を支持する。 この仮定は、RQMにおける情報の相互主観性(interjectivity)の問題を解決するために、最近だけ提案されたものである。 OITが支持する理論的ステートメントであるRQMとは対照的に、QBismはOITによって挑戦されている。

The Ozawa's Intersubjectivity Theorem (OIT) proved within quantum measurement theory supports the new postulate of relational quantum mechanics (RQM), the postulate on internally consistent descriptions. We remark that this postulate was proposed only recently to resolve the problem of intersubjectivity of information in RQM. In contrast to RQM for which OIT is a supporting theoretical statement, QBism is challenged by OIT.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# 入力凸リプシッツRNN: エンジニアリングタスクの高速かつロバストなアプローチ

Input Convex Lipschitz RNN: A Fast and Robust Approach for Engineering Tasks ( http://arxiv.org/abs/2401.07494v4 )

ライセンス: Link先を確認
Zihao Wang, Zhe Wu, (参考訳) 計算効率と非敵ロバスト性は、実世界の工学応用のためのプロセスモデリングと最適化において重要な要素である。 しかし、従来のニューラルネットワークは、同時に、あるいは別々にの両方に対処するのに不足することが多い。 自然の物理的システムや既存の文献から洞察を引き出すと、入力凸アーキテクチャは計算効率を向上し、一方リプシッツに制約されたアーキテクチャは非敵対的ロバスト性を高めることが理論的に知られている。 しかし、両方のプロパティを1つのモデルに統合することは自明な作業であり、一方のプロパティを強制することはもう一方のプロパティを損なう可能性がある。 そこで本研究では,凸性およびリプシッツ連続性の両方の強みを継承する,入出力凸リプシッツリカレントニューラルネットワークと呼ばれる新しいネットワークアーキテクチャを開発した。 このモデルは高速でロバストな最適化に基づくタスクのために設計されており、計算効率と非対向ロバスト性の観点から、既存の繰り返しユニットよりも優れている。 さらに,シンガポールのLHTホールディングスのソーラーPVシステム計画において,化学プロセスの最適化や実世界のソーラー照度予測など,様々な実用工学的応用でこのモデルを成功させた。 ソースコードはhttps://github.com/killingbear999/ICLRNNで入手できる。

Computational efficiency and non-adversarial robustness are critical factors in process modeling and optimization for real-world engineering applications. Yet, conventional neural networks often fall short in addressing both simultaneously, or even separately. Drawing insights from natural physical systems and existing literature, it is known theoretically that an input convex architecture will enhance computational efficiency, while a Lipschitz-constrained architecture will bolster non-adversarial robustness. However, integrating both properties into one model is a nontrivial task, as enforcing one property may compromise the other one. Therefore, in this work, we develop a novel network architecture, termed Input Convex Lipschitz Recurrent Neural Networks, that inherits the strengths of both convexity and Lipschitz continuity. This model is explicitly designed for fast and robust optimization-based tasks, which outperforms existing recurrent units in terms of computational efficiency and non-adversarial robustness. Additionally, we have successfully implemented this model in various practical engineering applications, such as optimization of chemical processes and real-world solar irradiance prediction for Solar PV system planning at LHT Holdings in Singapore. Source code is available at https://github.com/killingbear999/ICLRNN.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# 地中エネルギー推定のための耐雑音量子アルゴリズム

Noise-Tolerant Quantum Algorithm for Ground State Energy Estimation ( http://arxiv.org/abs/2401.09091v2 )

ライセンス: Link先を確認
Erenay Karacan, Yanbin Chen, Christian B. Mendl, (参考訳) 量子コンピュータの最も有望な応用の1つは、物理系をシミュレートし、それら固有の量子挙動を活用し、古典的な計算よりも優位性を得ることである。 本研究では,地中エネルギー推定のための雑音耐性ハミルトニアンのシミュレーションアルゴリズムを提案する。 提案手法は,予測値の推定に確率的サンプリング制限を上乗せする。 ファジィ二項探索の適応シーケンスに基づいて、基底状態エネルギー桁を桁単位で推定し、シミュレーション時間の増加と絶対誤差率の低下の間にトレードオフがある。 量子固有値変換(Quantum Eigenvalue Transformation of Unitary Matrices, QETU)アルゴリズムに基づいており、局所的な2量子ゲート脱分極確率を最大1e-3とするシミュレーションにおいて優れた近似を与える。 本研究の重要な成果を示すために,Qiskit を用いて,異なるシステムハミルトン,システムサイズ,時間進化符号化法を用いてシミュレーションを行った。 我々は,既存の手法と比較し,絶対誤差率の2~3桁の改善を連続的に達成できることを示す。

One of the most promising applications of quantum computers is to simulate physical systems, leveraging their inherent quantum behavior to achieve an advantage over classical computation. In this work, we present a noise-tolerant Hamiltonian simulation algorithm for ground-state energy estimation. Our method surmounts stochastic sampling limitations to estimate expectation values. It is based on an adaptive sequence of fuzzy bisection searches to estimate the ground state energy digit by digit, with a trade-off between increasing the simulation time and decreasing the absolute error rate. It builds upon the Quantum Eigenvalue Transformation of Unitary Matrices (QETU) algorithm, and it delivers good approximations in simulations with local, two-qubit gate depolarizing probability up to 1e-3, specifically for Hamiltonians that anti-commute with a Pauli string. To demonstrate the key results in this work, we ran simulations with different system Hamiltonians, system sizes, and time evolution encoding methods on classical computers using Qiskit. We compare the performance with other existing methods and show that we can consistently achieve two to three orders of magnitude improvement in the absolute error rate.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# セマンティックセグメンテーションの不確実性推定:自動クレーム処理における信頼性の向上

Uncertainty estimates for semantic segmentation: providing enhanced reliability for automated motor claims handling ( http://arxiv.org/abs/2401.09245v2 )

ライセンス: Link先を確認
Jan Küchler, Daniel Kröll, Sebastian Schoenen, Andreas Witte, (参考訳) イメージセグメンテーションのためのディープニューラルネットワークモデルは、保険業界におけるモータークレーム処理プロセスを自動化する強力なツールとなり得る。 重要な側面は、請求人が損傷を文書化するために撮影した低画質の写真など、悪条件に直面した場合のモデル出力の信頼性である。 本研究では,車体部品のセマンティックセグメンテーションのために訓練されたモデルにより予測されたセグメントの精度を実証的に評価するためのメタ分類モデルについて検討する。 セグメントの品質に相関する特徴の異なるセットを比較し,高品質セグメントと低品質セグメントを区別するためのAUROCスコア0.915を達成した。 低品質セグメントを除去することにより、セグメンテーション出力の平均mIoUを16ポイント改善し、誤予測セグメント数を77%削減する。

Deep neural network models for image segmentation can be a powerful tool for the automation of motor claims handling processes in the insurance industry. A crucial aspect is the reliability of the model outputs when facing adverse conditions, such as low quality photos taken by claimants to document damages. We explore the use of a meta-classification model to empirically assess the precision of segments predicted by a model trained for the semantic segmentation of car body parts. Different sets of features correlated with the quality of a segment are compared, and an AUROC score of 0.915 is achieved for distinguishing between high- and low-quality segments. By removing low-quality segments, the average mIoU of the segmentation output is improved by 16 percentage points and the number of wrongly predicted segments is reduced by 77%.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# 分散ランダムネットワーク蒸留による探索と反探索

Exploration and Anti-Exploration with Distributional Random Network Distillation ( http://arxiv.org/abs/2401.09750v3 )

ライセンス: Link先を確認
Kai Yang, Jian Tao, Jiafei Lyu, Xiu Li, (参考訳) エージェントが未知の環境で高いリターンを得るための深層強化学習において、探索は依然として重要な課題である。 探索的ランダムネットワーク蒸留(RND)アルゴリズムは、多くの環境で有効であることが証明されているが、しばしばボーナスアロケーションにおいてより識別力を必要とする。 本稿では、RNDにおける「結合不整合」の問題を強調し、その主な限界を指摘する。 この問題に対処するために、RNDの派生である分布式RND(DRND)を導入する。 DRNDは、ランダムネットワークの分布を蒸留し、疑似カウントを暗黙的に取り入れて、ボーナス割り当ての精度を向上させることにより、探索プロセスを強化する。 この改良により、エージェントはより広範な探査に従事した。 本手法は,計算オーバーヘッドの増大を伴わずに,不整合問題を効果的に軽減する。 理論的解析と実験結果は、元のRNDアルゴリズムよりも我々のアプローチの方が優れていることを示している。 本手法は,D4RLオフラインタスクにおいて,オンライン探索シナリオの挑戦に優れ,探索防止機構として効果的に機能する。 私たちのコードはhttps://github.com/yk7333/DRND.comで公開されています。

Exploration remains a critical issue in deep reinforcement learning for an agent to attain high returns in unknown environments. Although the prevailing exploration Random Network Distillation (RND) algorithm has been demonstrated to be effective in numerous environments, it often needs more discriminative power in bonus allocation. This paper highlights the "bonus inconsistency" issue within RND, pinpointing its primary limitation. To address this issue, we introduce the Distributional RND (DRND), a derivative of the RND. DRND enhances the exploration process by distilling a distribution of random networks and implicitly incorporating pseudo counts to improve the precision of bonus allocation. This refinement encourages agents to engage in more extensive exploration. Our method effectively mitigates the inconsistency issue without introducing significant computational overhead. Both theoretical analysis and experimental results demonstrate the superiority of our approach over the original RND algorithm. Our method excels in challenging online exploration scenarios and effectively serves as an anti-exploration mechanism in D4RL offline tasks. Our code is publicly available at https://github.com/yk7333/DRND.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# AIエージェントへの可視性

Visibility into AI Agents ( http://arxiv.org/abs/2401.13138v6 )

ライセンス: Link先を確認
Alan Chan, Carson Ezell, Max Kaufmann, Kevin Wei, Lewis Hammond, Herbie Bradley, Emma Bluemke, Nitarshan Rajkumar, David Krueger, Noam Kolt, Lennart Heim, Markus Anderljung, (参考訳) 商業的、科学的、政府的、個人的活動をAIエージェントに委任し、限られた監督下で複雑な目標を追求できるシステムに委任することで、既存の社会的リスクが悪化し、新たなリスクがもたらされる可能性がある。 これらのリスクを理解し緩和するには、既存のガバナンス構造を批判的に評価し、必要に応じてこれらの構造を修正し、適応し、主要なステークホルダーの責任を保証することが必要です。 特定のAIエージェントが使われている場所、理由、方法、そして誰が使用されるのかに関する情報は、これらの目的に不可欠である。 本稿では,エージェント識別子,リアルタイム監視,アクティビティログという,AIエージェントの視認性を高めるための3つの尺度を評価する。 それぞれ、侵入性と情報性に異なる潜在的な実装について概説する。 ハードウェアやソフトウェアサービスプロバイダを含むサプライチェーンのさまざまなアクターを考慮し、分散デプロイメントのコンテキストを通じて、この措置が中央集権的な範囲でどのように適用されるかを分析する。 最後に、プライバシと集中力に対する我々の対策がもたらす意味について論じる。 措置の理解と負の影響軽減に関するさらなる取り組みは、AIエージェントのガバナンスのための基盤を構築するのに役立つ。

Increased delegation of commercial, scientific, governmental, and personal activities to AI agents -- systems capable of pursuing complex goals with limited supervision -- may exacerbate existing societal risks and introduce new risks. Understanding and mitigating these risks involves critically evaluating existing governance structures, revising and adapting these structures where needed, and ensuring accountability of key stakeholders. Information about where, why, how, and by whom certain AI agents are used, which we refer to as visibility, is critical to these objectives. In this paper, we assess three categories of measures to increase visibility into AI agents: agent identifiers, real-time monitoring, and activity logging. For each, we outline potential implementations that vary in intrusiveness and informativeness. We analyze how the measures apply across a spectrum of centralized through decentralized deployment contexts, accounting for various actors in the supply chain including hardware and software service providers. Finally, we discuss the implications of our measures for privacy and concentration of power. Further work into understanding the measures and mitigating their negative impacts can help to build a foundation for the governance of AI agents.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# 大規模言語モデルは時空間データにどのように理解できるのか?

How Can Large Language Models Understand Spatial-Temporal Data? ( http://arxiv.org/abs/2401.14192v2 )

ライセンス: Link先を確認
Lei Liu, Shuo Yu, Runze Wang, Zhenxun Ma, Yanming Shen, (参考訳) 大規模言語モデル(LLM)が自然言語処理やコンピュータビジョンなどのタスクを支配しているが、時空間予測にそのパワーを活用することは依然として困難である。 逐次テキストと複雑な時空間データとの相違は、この応用を妨げる。 この問題に対処するために,時空間予測にLLMを活用する革新的なアプローチSTG-LLMを提案する。 提案することで、データのミスマッチに取り組みます。 1 STG-Tokenizer: この時空間グラフトークンは、複雑なグラフデータを空間的および時間的関係をキャプチャする簡潔なトークンに変換する。 2) STG-Adapter: この最小限のアダプタは、線形符号化層と復号層で構成され、トークン化されたデータとLLMの理解のギャップを埋める。 少数のパラメータのみを微調整することで、LLMの本来の自然言語理解能力を保ちながら、STG-Tokenizerによって生成されるトークンの意味を効果的に把握することができる。 多様な時空間ベンチマークデータセットに対する大規模な実験により、STG-LLMは時空間予測のためのLLMポテンシャルを解き放つことに成功した。 注目すべきは、本手法は専用のSOTA法と同等の競合性能を実現することである。

While Large Language Models (LLMs) dominate tasks like natural language processing and computer vision, harnessing their power for spatial-temporal forecasting remains challenging. The disparity between sequential text and complex spatial-temporal data hinders this application. To address this issue, this paper introduces STG-LLM, an innovative approach empowering LLMs for spatial-temporal forecasting. We tackle the data mismatch by proposing: 1) STG-Tokenizer: This spatial-temporal graph tokenizer transforms intricate graph data into concise tokens capturing both spatial and temporal relationships; 2) STG-Adapter: This minimalistic adapter, consisting of linear encoding and decoding layers, bridges the gap between tokenized data and LLM comprehension. By fine-tuning only a small set of parameters, it can effectively grasp the semantics of tokens generated by STG-Tokenizer, while preserving the original natural language understanding capabilities of LLMs. Extensive experiments on diverse spatial-temporal benchmark datasets show that STG-LLM successfully unlocks LLM potential for spatial-temporal forecasting. Remarkably, our approach achieves competitive performance on par with dedicated SOTA methods.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# TeenyTinyLlama: ブラジルでトレーニングされたオープンソースの小さな言語モデル

TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese ( http://arxiv.org/abs/2401.16640v3 )

ライセンス: Link先を確認
Nicholas Kluge Corrêa, Sophia Falk, Shiza Fatimah, Aniket Sen, Nythamar de Oliveira, (参考訳) 大規模言語モデル(LLM)は、かなり進歩した自然言語処理を持つが、その進歩は言語間ではまだ等しくなっていない。 ほとんどのLLMは英語のような高リソース言語で訓練されているが、多言語モデルは一般的にモノリンガル言語よりも性能が低い。 さらに、多言語基盤の側面は、計算要求やライセンス制度のような副産物を制限することもある。 本研究では,低リソース環境での使用に適したオープン・ファウンデーション・モデルの開発,その限界,そのメリットについて述べる。 これはTeenyTinyLlamaペアで、ブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルです。 私たちは、GitHub上の寛容なApache 2.0ライセンスと、コミュニティの使用とさらなる開発のためにHugging Faceでそれらをリリースしています。 https://github.com/Nkluge-correa/TeenyTinyLlamaを参照。

Large language models (LLMs) have significantly advanced natural language processing, but their progress has yet to be equal across languages. While most LLMs are trained in high-resource languages like English, multilingual models generally underperform monolingual ones. Additionally, aspects of their multilingual foundation sometimes restrict the byproducts they produce, like computational demands and licensing regimes. In this study, we document the development of open-foundation models tailored for use in low-resource settings, their limitations, and their benefits. This is the TeenyTinyLlama pair: two compact models for Brazilian Portuguese text generation. We release them under the permissive Apache 2.0 license on GitHub and Hugging Face for community use and further development. See https://github.com/Nkluge-correa/TeenyTinyLlama
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# テンプレートマッチングとCNNを用いた接合と終端検出による磁気ラビリンチン構造のキャラクタリゼーション

Characterization of Magnetic Labyrinthine Structures through Junctions and Terminals Detection Using Template Matching and CNN ( http://arxiv.org/abs/2401.16688v2 )

ライセンス: Link先を確認
Vinícius Yu Okubo, Kotaro Shimizu, B. S. Shivaram, Hae Yong Kim, (参考訳) 欠陥は材料の様々な特性に影響を与え、その構造的、機械的、電子的特性を形成する。 特異な欠陥を示す様々な材料の中で、磁石は様々なナノからマイクロスケールの欠陥を示し、材料科学において集中的に研究されてきた。 具体的には、ジャンクションと終端と呼ばれる磁気ラビリンチンパターンの欠陥が研究の標準的標的となっている。 このような欠陥を検出して特徴付けることは磁石を理解するのに不可欠であるが、1000個以上の密集したジャンクションと端子を含む大規模画像を体系的に調査することは、依然として困難な課題である。 本研究ではTM-CNN (Template Matching - Convolutional Neural Network) と呼ばれる新しい手法を提案する。 TM-CNNを用いて, 444枚の実験画像から641,649個の構造を同定し, 磁気材料の理解を深める実験を行った。 これは、初期検出に使用されるテンプレートマッチングと、誤識別を排除するために使用される畳み込みニューラルネットワークを組み合わせた2段階検出アプローチを採用している。 CNN分類器を訓練するには,多数の訓練画像に注釈を付ける必要がある。 TM-CNNは、アノテーションのほとんどを自動で作成し、人間のレビュアーにわずかな修正しか残さず、トレーニング画像を作成するための手作業の負荷を大幅に削減する。 TM-CNNは、従来のテンプレートマッチングやCNNベースのオブジェクト検出アルゴリズムよりもはるかに優れています。

Defects influence diverse properties of materials, shaping their structural, mechanical, and electronic characteristics. Among a variety of materials exhibiting unique defects, magnets exhibit diverse nano- to micro-scale defects and have been intensively studied in materials science. Specifically, defects in magnetic labyrinthine patterns, called junctions and terminals, serve as the canonical targets of the research. While detecting and characterizing such defects is crucial for understanding magnets, systematically investigating large-scale images containing over a thousand closely packed junctions and terminals remains a formidable challenge. This study introduces a new technique called TM-CNN (Template Matching - Convolutional Neural Network) designed to detect a multitude of small objects in images, such as the defects in magnetic labyrinthine patterns. TM-CNN was used to identify 641,649 such structures in 444 experimental images, and the results were explored to deepen understanding of magnetic materials. It employs a two-stage detection approach combining template matching, used in initial detection, with a convolutional neural network, used to eliminate incorrect identifications. To train a CNN classifier, it is necessary to annotate a large number of training images.This difficulty prevents the use of CNN in many practical applications. TM-CNN significantly reduces the manual workload for creating training images by automatically making most of the annotations and leaving only a small number of corrections to human reviewers. In testing, TM-CNN achieved an impressive F1 score of 0.991, far outperforming traditional template matching and CNN-based object detection algorithms.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# PipeNet: 知識グラフによるセマンティックプルーニングによる質問応答

PipeNet: Question Answering with Semantic Pruning over Knowledge Graphs ( http://arxiv.org/abs/2401.17536v2 )

ライセンス: Link先を確認
Ying Su, Jipeng Zhang, Yangqiu Song, Tong Zhang, (参考訳) 明示的な知識グラフ(KG)を組み込むことは、質問応答の恩恵をもたらすことはよく知られている。 既存のアプローチは通常、エンティティノードがクエリ(クエストと候補)に最初に接地されたグラウンドリング推論パイプラインに従っており、その後、マッチしたマルチホップサブグラフに対する推論モジュールの理由が答えの予測である。 パイプラインは、巨大なKGから重要な情報を抽出する問題をほとんど緩和するが、その効率性は、サブグラフのグラウンド化においてホップをスケールアップする際のオープンな課題である。 本稿では,KGを用いたグラフ推論の効率を向上させるために,サブグラフ内の意味的関連エンティティノードの探索を目標とする。 本研究では,ノイズの多いノードに対するグラウンドング・プルーニング推論パイプラインを提案し,計算コストとメモリ使用量を大幅に削減するとともに,適切な部分グラフ表現を得る。 詳細は、プルーニングモジュールが最初に、マッチしたスパン間の依存性距離に基づいてコンセプトノードをスコアし、スコアランクに従ってノードをプルーする。 刈り取られたサブグラフの評価を容易にするため,サブグラフデータに基づくグラフアテンションネットワーク(GAT)ベースのモジュールも提案する。 CommonsenseQAとOpenBookQAの実験結果から,本手法の有効性が示された。

It is well acknowledged that incorporating explicit knowledge graphs (KGs) can benefit question answering. Existing approaches typically follow a grounding-reasoning pipeline in which entity nodes are first grounded for the query (question and candidate answers), and then a reasoning module reasons over the matched multi-hop subgraph for answer prediction. Although the pipeline largely alleviates the issue of extracting essential information from giant KGs, efficiency is still an open challenge when scaling up hops in grounding the subgraphs. In this paper, we target at finding semantically related entity nodes in the subgraph to improve the efficiency of graph reasoning with KG. We propose a grounding-pruning-reasoning pipeline to prune noisy nodes, remarkably reducing the computation cost and memory usage while also obtaining decent subgraph representation. In detail, the pruning module first scores concept nodes based on the dependency distance between matched spans and then prunes the nodes according to score ranks. To facilitate the evaluation of pruned subgraphs, we also propose a graph attention network (GAT) based module to reason with the subgraph data. Experimental results on CommonsenseQA and OpenBookQA demonstrate the effectiveness of our method.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# アジャイルは安全: 衝突のない高速な足の移動を学習する

Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion ( http://arxiv.org/abs/2401.17583v2 )

ライセンス: Link先を確認
Tairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi, (参考訳) 散らかった環境をナビゲートするレッグロボットは、効率的なタスク実行のために共同でアジャイルであり、障害物や人間との衝突を避けるために安全でなければならない。 既存の研究は、安全を確保するために保守的なコントローラ(1.0 m/s)を開発するか、潜在的に致命的な衝突を考慮せずにアジリティに注力する。 本稿では,四足歩行ロボットにおけるアジャイルと衝突のない移動を可能にする学習ベースの制御フレームワークであるAgile But Safe(ABS)を紹介する。 ABSは障害の中でアジャイルモータースキルを実行するためのアジャイルポリシと、障害を防止するためのリカバリポリシと、高速かつ衝突のないナビゲーションを共同で実現する。 ABSのポリシースイッチは、学習された制御理論的リーチ・アビド値ネットワークによって制御され、リカバリポリシーを目的関数としてガイドし、ロボットをクローズドループで保護する。 トレーニングプロセスには、アジャイルポリシ、リーチアビドバリューネットワーク、リカバリポリシ、エクセプション表現ネットワークなど、すべてシミュレーションで学ぶことが含まれる。 これらの訓練されたモジュールは、オンボードのセンシングと計算によって現実世界に直接展開することができ、静的障害物と動的障害物の両方を持つ屋内および屋外に閉じ込められた空間において、高速で衝突のないナビゲーションをもたらす。

Legged robots navigating cluttered environments must be jointly agile for efficient task execution and safe to avoid collisions with obstacles or humans. Existing studies either develop conservative controllers (< 1.0 m/s) to ensure safety, or focus on agility without considering potentially fatal collisions. This paper introduces Agile But Safe (ABS), a learning-based control framework that enables agile and collision-free locomotion for quadrupedal robots. ABS involves an agile policy to execute agile motor skills amidst obstacles and a recovery policy to prevent failures, collaboratively achieving high-speed and collision-free navigation. The policy switch in ABS is governed by a learned control-theoretic reach-avoid value network, which also guides the recovery policy as an objective function, thereby safeguarding the robot in a closed loop. The training process involves the learning of the agile policy, the reach-avoid value network, the recovery policy, and an exteroception representation network, all in simulation. These trained modules can be directly deployed in the real world with onboard sensing and computation, leading to high-speed and collision-free navigation in confined indoor and outdoor spaces with both static and dynamic obstacles.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# 量子リップルキャリー加算器と比較器におけるTおよびCNOTゲートの最適化

Optimizing T and CNOT Gates in Quantum Ripple-Carry Adders and Comparators ( http://arxiv.org/abs/2401.17921v2 )

ライセンス: Link先を確認
Maxime Remaud, (参考訳) 2つのnビット数の追加と比較のためのリップルキャリー戦略を用いた量子回路の最先端技術と、CNOT-deepthとT-deepth、またはCNOT-countとT-countの両点でクリフォード+Tゲートセットの最適化について述べる。 特に、Cuccaro et al および Takahashi et al によって提示される加算器を考慮すると、T深さ 4n と CNOT 深さ 8n の回路が得られ、元の回路を最適化することなく、T深さ 6n の回路が期待できる。 また、CNOTカウントとTカウントを最適化した新しい加算器も導入された。 ここでは、少なくとも1つのアンシラを用いた量子リップルキャリー加算器(Toffoli, Peres, TR)や測定を含む戦略の近似を伴わない点に注目した。

The state of the art of quantum circuits using the ripple-carry strategy for the addition and comparison of two n-bit numbers is presented, as well as optimizations in the Clifford+T gate set, both in terms of CNOT-depth and T-depth, or CNOT-count and T-count. In particular, considering the adders presented by Cuccaro et al. and Takahashi et al., circuits with a T-depth of 4n and a CNOT-depth of 8n are obtained, while without optimization of the original circuits, a T-depth of 6n is expected. In addition, a new adder with optimized CNOT-count and T-count is introduced. Note that we have focused here on quantum ripple-carry adders using at most one ancilla, without any approximation of the 3-qubit gates involved (Toffoli, Peres and TR) or any strategy involving a measurement.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# CapHuman:パラレル宇宙でモメンタリーを撮る

CapHuman: Capture Your Moments in Parallel Universes ( http://arxiv.org/abs/2402.00627v3 )

ライセンス: Link先を確認
Chao Liang, Fan Ma, Linchao Zhu, Yingying Deng, Yi Yang, (参考訳) 我々は,1つの参照顔写真のみを前提として,多様な頭部位置,ポーズ,表情,照明の異なる個々の画像を生成することを期待する,新しい人中心画像合成タスクに焦点をあてる。 この目的を達成するために、我々は、生成モデルは、(1)基本対象と人体画像生成のための、世界と人間社会の視覚的、意味的な理解の強い特徴を持つべきであると論じる。 2) 汎用的なアイデンティティ保存能力。 (3) 柔軟できめ細かい頭部制御。 近年、大規模な事前学習による画像拡散モデルが顕著な成果を示し、強力な生成基盤として機能している。 基礎として、事前訓練されたモデルの上記の2つの能力を解き放つことを目的としている。 本稿では,CapHumanという新しいフレームワークを提案する。 推論における煩雑なチューニングを伴わずに、新しい個人に対する汎用的なアイデンティティ保存を可能にする「エンコード・アラーム・アライメント」パラダイムを取り入れている。 CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。 さらに,モデルに人間の頭部を柔軟かつ3D一貫性のある方法で制御させる前に,この3D顔を導入する。 広汎な質的および定量的分析により、CapHumanは、確立されたベースラインよりも優れた、コンテンツに富んだ表現と様々なヘッドリディングを備えた、身元よく保存された、フォトリアリスティックで、高忠実な肖像画を作成できることを示した。 コードとチェックポイントはhttps://github.com/VamosC/CapHuman.comで公開される。

We concentrate on a novel human-centric image synthesis task, that is, given only one reference facial photograph, it is expected to generate specific individual images with diverse head positions, poses, facial expressions, and illuminations in different contexts. To accomplish this goal, we argue that our generative model should be capable of the following favorable characteristics: (1) a strong visual and semantic understanding of our world and human society for basic object and human image generation. (2) generalizable identity preservation ability. (3) flexible and fine-grained head control. Recently, large pre-trained text-to-image diffusion models have shown remarkable results, serving as a powerful generative foundation. As a basis, we aim to unleash the above two capabilities of the pre-trained model. In this work, we present a new framework named CapHuman. We embrace the "encode then learn to align" paradigm, which enables generalizable identity preservation for new individuals without cumbersome tuning at inference. CapHuman encodes identity features and then learns to align them into the latent space. Moreover, we introduce the 3D facial prior to equip our model with control over the human head in a flexible and 3D-consistent manner. Extensive qualitative and quantitative analyses demonstrate our CapHuman can produce well-identity-preserved, photo-realistic, and high-fidelity portraits with content-rich representations and various head renditions, superior to established baselines. Code and checkpoint will be released at https://github.com/VamosC/CapHuman.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-17
# 注意層における単語感受性の理解に向けて--ランダム特徴を用いた検討

Towards Understanding the Word Sensitivity of Attention Layers: A Study via Random Features ( http://arxiv.org/abs/2402.02969v2 )

ライセンス: Link先を確認
Simone Bombari, Marco Mondelli, (参考訳) トランスフォーマーの例外的な成功の背景にある理由を理解するには、なぜ注意層がNLPタスクに適したのかをよりよく分析する必要がある。 特に、そのようなタスクは、たとえ文が長いとしても、しばしば1つまたは少数の単語に依存する文脈的意味を捉えるために予測モデルを必要とする。 本研究は, 単語感度 (WS) と呼ばれる, ランダムな特徴の原型的設定において, この重要な特性について検討する。 注意層は高いWS、すなわち、ランダムな注意特徴写像を乱す埋め込み空間にベクトルが存在することを示す。 この議論は、注意層におけるソフトマックスの役割を批判的に利用し、他のアクティベーション(例えば、ReLU)と比較してその利点を強調している。 対照的に、標準的なランダムな特徴の WS は順に 1/\sqrt{n}$, $n$ はテキストサンプル中の単語の数であり、したがってコンテキストの長さで減衰する。 次に、これらの単語の感度を一般化境界に変換する: それらの低いWSのため、ランダムな特徴は、単一の単語でのみ異なる2つの文を区別することが、確実に学べない; 対照的に、WSが高いので、ランダムな注意特徴はより高度な一般化能力を持つ。 我々は,Imdb レビューデータセットの BERT-Base 単語の埋め込みに関する実験的な証拠を用いて理論的結果を検証する。

Understanding the reasons behind the exceptional success of transformers requires a better analysis of why attention layers are suitable for NLP tasks. In particular, such tasks require predictive models to capture contextual meaning which often depends on one or few words, even if the sentence is long. Our work studies this key property, dubbed word sensitivity (WS), in the prototypical setting of random features. We show that attention layers enjoy high WS, namely, there exists a vector in the space of embeddings that largely perturbs the random attention features map. The argument critically exploits the role of the softmax in the attention layer, highlighting its benefit compared to other activations (e.g., ReLU). In contrast, the WS of standard random features is of order $1/\sqrt{n}$, $n$ being the number of words in the textual sample, and thus it decays with the length of the context. We then translate these results on the word sensitivity into generalization bounds: due to their low WS, random features provably cannot learn to distinguish between two sentences that differ only in a single word; in contrast, due to their high WS, random attention features have higher generalization capabilities. We validate our theoretical results with experimental evidence over the BERT-Base word embeddings of the imdb review dataset.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# SafEDMD:非線形力学系のデータ駆動制御に適した認定学習アーキテクチャ

SafEDMD: A certified learning architecture tailored to data-driven control of nonlinear dynamical systems ( http://arxiv.org/abs/2402.03145v2 )

ライセンス: Link先を確認
Robin Strässer, Manuel Schaller, Karl Worthmann, Julian Berberich, Frank Allgöwer, (参考訳) クープマン演算子は動的制御系の機械学習の理論的バックボーンとして機能し、演算子は拡張動的モード分解(EDMD)によってヒューリスティックに近似される。 本稿では,厳密な証明とともに提供されるEDMDベースの新しい学習アーキテクチャであるSafEDMDを提案する。 SafEDMDの信頼性を確保するために、原点で消滅し、タスクの制御に適した比例誤差境界を導出し、半定値プログラミングに基づく認証制御設計を実現する。 本稿では,いくつかのベンチマーク例を用いて開発手法を説明し,最先端手法の利点を強調した。

The Koopman operator serves as the theoretical backbone for machine learning of dynamical control systems, where the operator is heuristically approximated by extended dynamic mode decomposition (EDMD). In this paper, we propose Stability- and certificate-oriented EDMD (SafEDMD): a novel EDMD-based learning architecture which comes along with rigorous certificates, resulting in a reliable surrogate model generated in a data-driven fashion. To ensure the trustworthiness of SafEDMD, we derive proportional error bounds, which vanish at the origin and are tailored to control tasks, leading to certified controller design based on semi-definite programming. We illustrate the developed method by means of several benchmark examples and highlight the advantages over state-of-the-art methods.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# 雑音中規模量子デバイスを用いたクロストーク誤差の回路忠実度に及ぼす影響の推定

Estimating the Effect of Crosstalk Error on Circuit Fidelity Using Noisy Intermediate-Scale Quantum Devices ( http://arxiv.org/abs/2402.06952v2 )

ライセンス: Link先を確認
Sovanmonynuth Heng, Myeongseong Go, Youngsun Han, (参考訳) テクノロジーの最近の進歩は、量子コンピューティングコミュニティの注目を、計算能力が古典的コンピュータを上回り、実用的応用において、短期的なデバイスの可能性を探ることに向けている。 未解決の問題は、これらのデバイスに固有のノイズが克服できるかどうか、あるいは潜在的な量子的優位性が制限されるかどうかに関するものである。 クロストークは、ノイズの多い中間スケール量子(NISQ)システムにおけるノイズの主な源の1つであり、ハードウェア設計において根本的な課題であることは間違いない。 並列命令間のクロストークは量子状態を破損させ、不正なプログラム実行を引き起こす。 そこで本研究では,NISQデバイスにおけるクロストーク誤りの影響について,必要な解析を行った。 提案手法は,様々なマルチキュービットデバイスにおけるクロストーク誤差を推定する上で,極めて単純かつ実用的な手法である。 特に、ランダム化ベンチマーク(RB)と同時ランダム化ベンチマーク(SRB)プロトコルを組み合わせて、相関制御NOT(CNOT)ゲートからクロストーク誤差を推定する。 5ビット、7ビット、および16ビットのデバイスで実験的にこのプロトコルを実証する。 実験では,IBMの3種類の量子デバイスのクロストーク誤差モデルを用いて,マシン,量子ビット数,量子ボリューム,プロセッサ,トポロジの誤差変動を比較した。 次に、命令障壁を挿入することで、異なるベンチマークにおける回路の忠実度を最大3.06倍に向上させることを確認し、実際に、最適に近いクロストークを緩和するIBMの量子ノイズデバイスと比較する。 最後に、現在のシステム制限、忠実度と深さのトレードオフ、NISQシステム以外のノイズ、量子演算が乱れないようにするための緩和機会について論じる。

Current advancements in technology have focused the attention of the quantum computing community toward exploring the potential of near-term devices whose computing power surpasses that of classical computers in practical applications. An unresolved central question revolves around whether the inherent noise in these devices can be overcome or whether any potential quantum advantage would be limited. There is no doubt that crosstalk is one of the main sources of noise in noisy intermediate-scale quantum (NISQ) systems, and it poses a fundamental challenge to hardware designs. Crosstalk between parallel instructions can corrupt quantum states and cause incorrect program execution. In this study, we present a necessary analysis of the crosstalk error effect on NISQ devices. Our approach is extremely straightforward and practical to estimate the crosstalk error of various multi-qubit devices. In particular, we combine the randomized benchmarking (RB) and simultaneous randomized benchmarking (SRB) protocol to estimate the crosstalk error from the correlation controlled-NOT (CNOT) gate. We demonstrate this protocol experimentally on 5-, 7-, \& 16-qubit devices. Our results demonstrate the crosstalk error model of three different IBM quantum devices over the experimental week and compare the error variation against the machine, number of qubits, quantum volume, processor, and topology. We then confirm the improvement in the circuit fidelity on different benchmarks by up to 3.06x via inserting an instruction barrier, as compared with an IBM quantum noisy device which offers near-optimal crosstalk mitigation in practice. Finally, we discuss the current system limitation, its tradeoff on fidelity and depth, noise beyond the NISQ system, and mitigation opportunities to ensure that the quantum operation can perform its quantum magic undisturbed.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# 出版テキストの社会進化と大規模言語モデルによる人工知能の出現と毒性とバイアスの問題

Social Evolution of Published Text and The Emergence of Artificial Intelligence Through Large Language Models and The Problem of Toxicity and Bias ( http://arxiv.org/abs/2402.07166v2 )

ライセンス: Link先を確認
Arifa Khan, P. Saravanan, S. K Venkatesan, (参考訳) 我々は,AIとディープラーニングの急速な発展を鳥の目で見ることで,大規模言語モデルにおけるAIの進路を突破した。 本研究の目的は、1970年代から1990年代にかけてAIの冬を生んだ悲観主義を伴わずに、これらすべての発展を誇張することなく、実践的な歴史的社会的な視点で、より広い歴史的視点に配置することである。 同時に、過度に楽観的な人々への警告として存在する毒性、偏見、記憶、梅毒、論理的不一致、幻覚も指摘しています。 ここでは、このAIの出現が神経接続や体重のしきい値に現れるのと同じように、人間の脳、特に大脳皮質領域は特別なものではなく、単に霊長類の脳のスケールアップバージョンであり、人間の知性でさえ、スケールの創発的な現象のように見えることも観察されている。

We provide a birds eye view of the rapid developments in AI and Deep Learning that has led to the path-breaking emergence of AI in Large Language Models. The aim of this study is to place all these developments in a pragmatic broader historical social perspective without any exaggerations while at the same time without any pessimism that created the AI winter in the 1970s to 1990s. We also at the same time point out toxicity, bias, memorization, sycophancy, logical inconsistencies, hallucinations that exist just as a warning to the overly optimistic. We note here that just as this emergence of AI seems to occur at a threshold point in the number of neural connections or weights, it has also been observed that human brain and especially the cortex region is nothing special or extraordinary but simply a case of scaled-up version of the primate brain and that even the human intelligence seems like an emergent phenomena of scale.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# SepRep-Net:モデル分離と再パラメータ化によるマルチソースフリードメイン適応

SepRep-Net: Multi-source Free Domain Adaptation via Model Separation And Reparameterization ( http://arxiv.org/abs/2402.08249v2 )

ライセンス: Link先を確認
Ying Jin, Jiaqi Wang, Dahua Lin, (参考訳) 我々は、複数の既存モデルをソースデータにアクセスせずに新しいドメインに適応させる問題である、マルチソースのフリードメイン適応について検討する。 既存の手法では、モデルアンサンブルに基づく手法はソース領域とターゲット領域の両方で有効であるが、計算コストは大幅に増大する。 このジレンマに向けて,SepRep-Netという新しいフレームワークを提案する。SepRep-Netは,複数の既存モデルを統一ネットワークに再組み立てし,別々の経路(分離)を維持しながら,モデル分離と再パラメータ化によるマルチソース自由ドメイン適応を実現する。 トレーニング中、個別の経路は、追加のフィーチャマージユニットを介して定期的に行われる情報交換と並行して最適化される。 具体的設計により、これらの経路はさらに1つの経路に再パラメータ化され、推論(再パラメータ化)が容易になる。 SepRep-Net の特徴 1)有効性:対象領域における競争性能 2)効率性:計算コストが低く、 3) 一般化可能性: 既存のソリューションよりも多くのソース知識を維持すること。 一般的なアプローチとして、SepRep-Netは様々なメソッドにシームレスにプラグインできる。 大規模な実験により、主要なベンチマーク上でのSepRep-Netの性能が検証された。

We consider multi-source free domain adaptation, the problem of adapting multiple existing models to a new domain without accessing the source data. Among existing approaches, methods based on model ensemble are effective in both the source and target domains, but incur significantly increased computational costs. Towards this dilemma, in this work, we propose a novel framework called SepRep-Net, which tackles multi-source free domain adaptation via model Separation and Reparameterization.Concretely, SepRep-Net reassembled multiple existing models to a unified network, while maintaining separate pathways (Separation). During training, separate pathways are optimized in parallel with the information exchange regularly performed via an additional feature merging unit. With our specific design, these pathways can be further reparameterized into a single one to facilitate inference (Reparameterization). SepRep-Net is characterized by 1) effectiveness: competitive performance on the target domain, 2) efficiency: low computational costs, and 3) generalizability: maintaining more source knowledge than existing solutions. As a general approach, SepRep-Net can be seamlessly plugged into various methods. Extensive experiments validate the performance of SepRep-Net on mainstream benchmarks.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# Web 3.0ネットワークのための長距離自由空間量子セキュアダイレクト通信

Novel Long Distance Free Space Quantum Secure Direct Communication for Web 3.0 Networks ( http://arxiv.org/abs/2402.09108v4 )

ライセンス: Link先を確認
Yew Kee Wong, Yifan Zhou, Xinlin Zhou, Yan Shing Liang, Zi Yan Li, (参考訳) Web 3.0の出現により、技術の急速な進歩は、量子コンピューティングによる差し迫った脅威に直面している。 Web 2.0とWeb 3.0の完全性を保護しているセキュリティプロトコルは、量子攻撃と高度な古典的脅威の両方に対して、より影響を受けやすいようになってきている。 本稿では、量子および古典的文脈におけるセキュリティ侵害の防止方法として、我々の新しい長距離自由空間量子セキュアダイレクト通信(LF QSDC)を紹介する。 LF QSDCは量子鍵分布(QKD)のような技術と異なり、暗号化されたデータ転送が鍵交換を妨害し、鍵ベースのシステム固有の弱点を減らし、制約を超える。 この属性の特異性は、量子力学ベースと相まって、量子コンピュータの暴行や高度な非量子危険から保護し、Web 3.0時代の信頼できないテネットとシームレスに調和する。 本研究の焦点は、LF QSDCのWeb 3.0ネットワークインフラストラクチャへの技術設計と導入であり、拡張範囲通信の有効性を強調している。 LF QSDCは、メモリDL04プロトコルに基づいており、我々の新しい量子認識低密度パリティチェック(LDPC)、ポインティング、取得、追跡(PAT)技術、およびAQCAによって拡張されている。 この手法を利用することで、世界中のWeb 3.0ネットワークのセキュリティを高めるだけでなく、量子的および洗練された古典的脅威が同時に存在する時代にも、その持続性を保証する。 その結果、LF QSDCは、常に進化するデジタル環境の中で、Web 3.0システムに適した堅牢なセキュリティソリューションとして際立っている。

With the advent of Web 3.0, the swift advancement of technology confronts an imminent threat from quantum computing. Security protocols safeguarding the integrity of Web 2.0 and Web 3.0 are growing more susceptible to both quantum attacks and sophisticated classical threats. The article introduces our novel long-distance free-space quantum secure direct communication (LF QSDC) as a method to safeguard against security breaches in both quantum and classical contexts. Differing from techniques like quantum key distribution (QKD), LF QSDC surpasses constraints by facilitating encrypted data transmission sans key exchanges, thus diminishing the inherent weaknesses of key-based systems. The distinctiveness of this attribute, coupled with its quantum mechanics base, protects against quantum computer assaults and advanced non-quantum dangers, harmonizing seamlessly with the untrustworthy tenets of the Web 3.0 age. The focus of our study is the technical design and incorporation of LF QSDC into web 3.0 network infrastructures, highlighting its efficacy for extended-range communication. LF QSDC is based on the memory DL04 protocol and enhanced with our novel Quantum-Aware Low-Density Parity Check (LDPC), Pointing, Acquisition, and Tracking (PAT) technologies, and Atmospheric Quantum Correction Algorithm (AQCA). Utilizing this method not only bolsters the security of worldwide Web 3.0 networks but also guarantees their endurance in a time when quantum and sophisticated classical threats exist simultaneously. Consequently, LF QSDC stands out as a robust security solution, well-suited for Web 3.0 systems amidst the constantly evolving digital environment.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# GeoEval: 幾何学的問題解決におけるLLMとマルチモーダルモデルの評価ベンチマーク

GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving ( http://arxiv.org/abs/2402.10104v2 )

ライセンス: Link先を確認
Jiaxin Zhang, Zhongzhi Li, Mingliang Zhang, Fei Yin, Chenglin Liu, Yashar Moshfeghi, (参考訳) 大規模言語モデル (LLM) とマルチモーダルモデル (MM) の最近の進歩は, 問題解決におけるその顕著な能力を示している。 しかし,テキスト情報と視覚情報の両方を総合的に理解する必要がある幾何問題に対処する能力は十分に評価されていない。 このギャップに対処するために、GeoEvalベンチマーク、2,000問題の主要サブセット、後方推論に焦点を当てた750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを導入する。 このベンチマークは,幾何学数学問題の解法における LLM と MM の性能について,より深く研究する上で有効である。 これらのサブセット間での10個のLLMとMMの評価から、WizardMathモデルは、主サブセットで55.67\%の精度を達成できるが、ハードサブセットで6.00\%の精度しか達成できないことが分かる。 これは、事前トレーニングされていないデータセットに対して、モデルをテストするための重要な必要性を強調している。 さらに, GPTシリーズモデルは, 表現した問題に対して, より効果的に機能することが示唆され, モデル機能向上のための有望な手法である可能性が示唆された。

Recent advancements in large language models (LLMs) and multi-modal models (MMs) have demonstrated their remarkable capabilities in problem-solving. Yet, their proficiency in tackling geometry math problems, which necessitates an integrated understanding of both textual and visual information, has not been thoroughly evaluated. To address this gap, we introduce the GeoEval benchmark, a comprehensive collection that includes a main subset of 2,000 problems, a 750 problems subset focusing on backward reasoning, an augmented subset of 2,000 problems, and a hard subset of 300 problems. This benchmark facilitates a deeper investigation into the performance of LLMs and MMs in solving geometry math problems. Our evaluation of ten LLMs and MMs across these varied subsets reveals that the WizardMath model excels, achieving a 55.67\% accuracy rate on the main subset but only a 6.00\% accuracy on the hard subset. This highlights the critical need for testing models against datasets on which they have not been pre-trained. Additionally, our findings indicate that GPT-series models perform more effectively on problems they have rephrased, suggesting a promising method for enhancing model capabilities.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# 音声基礎モデルと大言語モデルを用いた音声翻訳:何が存在するのか、何が欠けているのか?

Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing? ( http://arxiv.org/abs/2402.12025v2 )

ライセンス: Link先を確認
Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli, (参考訳) 自然言語処理(NLP)の分野は、最近、基盤モデル、特にテキストベースのNLPに革命をもたらした大規模言語モデル(LLM)の出現とともに、変革的な変化を目撃している。 このパラダイムは、スピーチを含む他のモダリティにまで拡張され、研究者は、音声基礎モデル(SFM)とLLMの組み合わせを、マルチモーダルタスクに対処可能な単一の統一モデルに積極的に探求している。 このような課題の中で,本論文は音声からテキストへの翻訳(ST)に焦点を当てている。 このトピックに関する論文を検証し、アーキテクチャソリューションとトレーニング戦略の統一的なビューを提案し、それらの類似点と相違点を強調した。 本研究は,学習した教訓を整理するだけでなく,建築ブロックごとの最高の性能ソリューションの同定や学習選択を,多様な設定や評価アプローチがいかに妨げているかを示すものである。 最後に,STに対するSFM+LLMソリューションの長所と短所をよりよく理解することを目的とした,今後の研究の提言について概説する。

The field of natural language processing (NLP) has recently witnessed a transformative shift with the emergence of foundation models, particularly Large Language Models (LLMs) that have revolutionized text-based NLP. This paradigm has extended to other modalities, including speech, where researchers are actively exploring the combination of Speech Foundation Models (SFMs) and LLMs into single, unified models capable of addressing multimodal tasks. Among such tasks, this paper focuses on speech-to-text translation (ST). By examining the published papers on the topic, we propose a unified view of the architectural solutions and training strategies presented so far, highlighting similarities and differences among them. Based on this examination, we not only organize the lessons learned but also show how diverse settings and evaluation approaches hinder the identification of the best-performing solution for each architectural building block and training choice. Lastly, we outline recommendations for future works on the topic aimed at better understanding the strengths and weaknesses of the SFM+LLM solutions for ST.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# 大規模言語モデルに対するジェイルブレイク攻撃対防御に関する総合的研究

A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models ( http://arxiv.org/abs/2402.13457v2 )

ライセンス: Link先を確認
Zihao Xu, Yi Liu, Gelei Deng, Yuekang Li, Stjepan Picek, (参考訳) 大規模言語モデル(LLMS)は、社会的影響のあるコンテンツを生み出す中心となってきています。 特に、これらのモデルは有害と思われるコンテンツを生成する能力を示している。 これらのリスクを軽減するため、研究者はモデル出力を社会的価値と整合させ、悪意のあるコンテンツの生成を抑制する安全訓練手法を採用した。 しかし、モデルから有害な反応を誘発する「ジェイルブレイク」という現象は重要な課題である。 本研究は, 脱獄型LDMとその防御技術に関する既存の研究を包括的に分析する。 Vicuna, LLama, GPT-3.5 Turboの3つの異なる言語モデルに適用した9つの攻撃手法と7つの防御手法を慎重に検討した。 本研究の目的は,これらの攻撃・防御技術の有効性を評価することである。 以上の結果から,既存のホワイトボックス攻撃は普遍的手法に比べて性能が低く,入力に特別なトークンを含むと,攻撃成功の可能性に大きな影響を及ぼすことが明らかとなった。 この研究は、LLMのセキュリティ面に集中する必要性を強調している。 さらに、LLMセキュリティに関するさらなる研究を促進することを目的として、データセットとテスティングフレームワークをリリースすることによって、この分野にコントリビュートする。 これらの貢献により、この領域内のセキュリティ対策の探索が容易になると考えています。

Large Language Models (LLMS) have increasingly become central to generating content with potential societal impacts. Notably, these models have demonstrated capabilities for generating content that could be deemed harmful. To mitigate these risks, researchers have adopted safety training techniques to align model outputs with societal values to curb the generation of malicious content. However, the phenomenon of "jailbreaking", where carefully crafted prompts elicit harmful responses from models, persists as a significant challenge. This research conducts a comprehensive analysis of existing studies on jailbreaking LLMs and their defense techniques. We meticulously investigate nine attack techniques and seven defense techniques applied across three distinct language models: Vicuna, LLama, and GPT-3.5 Turbo. We aim to evaluate the effectiveness of these attack and defense techniques. Our findings reveal that existing white-box attacks underperform compared to universal techniques and that including special tokens in the input significantly affects the likelihood of successful attacks. This research highlights the need to concentrate on the security facets of LLMs. Additionally, we contribute to the field by releasing our datasets and testing framework, aiming to foster further research into LLM security. We believe these contributions will facilitate the exploration of security measures within this domain.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# マルチモーダルスタンス検出:新しいデータセットとモデル

Multi-modal Stance Detection: New Datasets and Model ( http://arxiv.org/abs/2402.14298v2 )

ライセンス: Link先を確認
Bin Liang, Ang Li, Jingqian Zhao, Lin Gui, Min Yang, Yue Yu, Kam-Fai Wong, Ruifeng Xu, (参考訳) スタンス検出は、特定のターゲットに関して、ソーシャルメディアプラットフォームから世論を識別することを目的とした課題である。 スタンス検出に関するこれまでの研究は、純粋なテキストに主に焦点をあてていた。 本稿では,テキストと画像からなるつぶやきに対するマルチモーダルな姿勢検出について検討する。 この目的のために、Twitterに基づいて異なるドメインの5つの新しいマルチモーダル姿勢検出データセットを作成し、各サンプルはテキストと画像で構成されている。 さらに,テキスト・ビジュアル・モダリティからマルチモーダル・スタンスの特徴を学習するために,目的情報を活用できるシンプルなマルチモーダル・プロンプト・チューニング・フレームワーク (TMPT) を提案する。 3つのベンチマークデータセットによる実験結果から,提案したTMPTは,マルチモーダル姿勢検出における最先端性能を実現することが示された。

Stance detection is a challenging task that aims to identify public opinion from social media platforms with respect to specific targets. Previous work on stance detection largely focused on pure texts. In this paper, we study multi-modal stance detection for tweets consisting of texts and images, which are prevalent in today's fast-growing social media platforms where people often post multi-modal messages. To this end, we create five new multi-modal stance detection datasets of different domains based on Twitter, in which each example consists of a text and an image. In addition, we propose a simple yet effective Targeted Multi-modal Prompt Tuning framework (TMPT), where target information is leveraged to learn multi-modal stance features from textual and visual modalities. Experimental results on our three benchmark datasets show that the proposed TMPT achieves state-of-the-art performance in multi-modal stance detection.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# 複数質問応答としてのバイオメディカルエンティティリンク

Biomedical Entity Linking as Multiple Choice Question Answering ( http://arxiv.org/abs/2402.15189v2 )

ライセンス: Link先を確認
Zhenxi Lin, Ziheng Zhang, Xian Wu, Yefeng Zheng, (参考訳) バイオメディカル・エンティティ・リンク(BioEL)は、事前訓練された言語モデルにおいて大きな進歩を遂げてきたが、細粒度と長い尾のエンティティには依然として課題がある。 これらの課題に対処するために,BioELQAという,バイオメディカルエンティティリンクを複数問合せ回答として扱う新しいモデルを提案する。 BioELQAはまず、高速検索器で候補エンティティを取得し、参照と候補エンティティを共同でジェネレータに提示し、選択したエンティティに関連する予測シンボルを出力する。 この定式化は、異なる候補エンティティの明示的な比較を可能にするため、参照とエンティティ間のきめ細かい相互作用を、エンティティ自身と同様にキャプチャする。 長い尾を持つエンティティの一般化を改善するため、類似したラベル付きトレーニングインスタンスを手がかりとして検索し、取得したインスタンスとジェネレータの入力を結合する。 大規模な実験結果から、BioELQAはいくつかのデータセットで最先端のベースラインを上回ります。

Although biomedical entity linking (BioEL) has made significant progress with pre-trained language models, challenges still exist for fine-grained and long-tailed entities. To address these challenges, we present BioELQA, a novel model that treats Biomedical Entity Linking as Multiple Choice Question Answering. BioELQA first obtains candidate entities with a fast retriever, jointly presents the mention and candidate entities to a generator, and then outputs the predicted symbol associated with its chosen entity. This formulation enables explicit comparison of different candidate entities, thus capturing fine-grained interactions between mentions and entities, as well as among entities themselves. To improve generalization for long-tailed entities, we retrieve similar labeled training instances as clues and concatenate the input with retrieved instances for the generator. Extensive experimental results show that BioELQA outperforms state-of-the-art baselines on several datasets.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-17
# Adapt Before Comparison: クロスドメインなFew-Shotセグメンテーションの新しい視点

Adapt Before Comparison: A New Perspective on Cross-Domain Few-Shot Segmentation ( http://arxiv.org/abs/2402.17614v2 )

ライセンス: Link先を確認
Jonas Herzog, (参考訳) トレーニングドメインとは異なる領域からのイメージに直面すると、ショットセグメンテーションのパフォーマンスは大幅に低下し、現実のユースケースを効果的に制限する。 この問題を軽減するために、最近クロスドメインのマイクロショットセグメンテーション(CD-FSS)が登場した。 このタスクに対処する作業は、主に、ドメインをまたいで一般化する方法で、ソースドメインのセグメンテーションを学習しようと試みた。 驚くべきことに、トレーニングステージを排除し、メインセグメンテーションネットワークを削除しながら、これらのアプローチを上回ります。 テストタイムのタスク適応がCD-FSSの成功の鍵であることを示す。 タスク適応は、従来の分類済みのバックボーンの特徴ピラミッドに小さなネットワークを追加することで達成される。 教師付き微調整において、少数のラベル付きサンプルに過度に適合しないように、付加された層のパラメータを学習しながら、入力画像の強化ビュー間の一貫性がガイダンスとして機能する。 テスト時にラベル付きサンプル以外の画像は使用しないという自己制限にもかかわらず、我々はCD-FSSの最先端のパフォーマンスを新たに達成し、タスクのアプローチを再考する必要性を認識します。

Few-shot segmentation performance declines substantially when facing images from a domain different than the training domain, effectively limiting real-world use cases. To alleviate this, recently cross-domain few-shot segmentation (CD-FSS) has emerged. Works that address this task mainly attempted to learn segmentation on a source domain in a manner that generalizes across domains. Surprisingly, we can outperform these approaches while eliminating the training stage and removing their main segmentation network. We show test-time task-adaption is the key for successful CD-FSS instead. Task-adaption is achieved by appending small networks to the feature pyramid of a conventionally classification-pretrained backbone. To avoid overfitting to the few labeled samples in supervised fine-tuning, consistency across augmented views of input images serves as guidance while learning the parameters of the attached layers. Despite our self-restriction not to use any images other than the few labeled samples at test time, we achieve new state-of-the-art performance in CD-FSS, evidencing the need to rethink approaches for the task.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# 強化学習によるフォールトトレラント論理状態生成のための量子回路探索

Quantum Circuit Discovery for Fault-Tolerant Logical State Preparation with Reinforcement Learning ( http://arxiv.org/abs/2402.17761v2 )

ライセンス: Link先を確認
Remmy Zen, Jan Olle, Luis Colmenarez, Matteo Puviani, Markus Müller, Florian Marquardt, (参考訳) 大規模量子コンピュータの実現には、量子エラー訂正(QEC)だけでなく、有害なエラーに伝播するエラーを処理するためのフォールトトレラントな操作も必要である。 近年、アシラリーキュービットを使用して有害なエラーをフラグするフラグベースのプロトコルが導入されている。 しかし、フラグベースのプロトコルを持つフォールトトレラント量子回路を見つけるための明確なレシピは、特に量子ビット接続や利用可能なゲートセットといったハードウェア制約を考慮すると、存在しない。 本研究では,コンパクトかつハードウェア対応のフォールトトレラント量子回路を自動検出する強化学習(RL)を提案する。 耐故障性論理状態作成のタスクにおいて、RLは最大15個の物理量子ビットのハードウェア制約を伴わない結果よりも、ゲートと補助量子ビットの少ない回路を発見する。 さらに、RLは異なる量子ビット接続性を簡単に探索し、発見を加速するために転送学習を使用することができる。 より一般的に、我々の研究は、マジック状態の準備、論理ゲート合成、シンドローム測定など、状態準備以上の課題に対処するためのフォールトトレラント量子回路の発見にRLを使用するための扉を開く。

The realization of large-scale quantum computers requires not only quantum error correction (QEC) but also fault-tolerant operations to handle errors that propagate into harmful errors. Recently, flag-based protocols have been introduced that use ancillary qubits to flag harmful errors. However, there is no clear recipe for finding a fault-tolerant quantum circuit with flag-based protocols, especially when we consider hardware constraints, such as qubit connectivity and available gate set. In this work, we propose and explore reinforcement learning (RL) to automatically discover compact and hardware-adapted fault-tolerant quantum circuits. We show that in the task of fault-tolerant logical state preparation, RL discovers circuits with fewer gates and ancillary qubits than published results without and with hardware constraints of up to 15 physical qubits. Furthermore, RL allows for straightforward exploration of different qubit connectivities and the use of transfer learning to accelerate the discovery. More generally, our work opens the door towards the use of RL for the discovery of fault-tolerant quantum circuits for addressing tasks beyond state preparation, including magic state preparation, logical gate synthesis, or syndrome measurement.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# ヘッジルン波束を用いたアントラセンの単一ビブロニックレベル蛍光スペクトルのアブ初期シミュレーション

Ab initio simulation of single vibronic level fluorescence spectra of anthracene using Hagedorn wavepackets ( http://arxiv.org/abs/2403.00702v3 )

ライセンス: Link先を確認
Zhan Tong Zhang, Jiří J. L. Vaníček, (参考訳) 単一ビブロニックレベル(SVL)蛍光分光法は分子振動構造と緩和過程の理解に寄与する。 本稿では、任意の初期振動レベルから多原子分子のSVL蛍光スペクトルを計算するための実用的な方法を提案する。 Hagedorn Wavepacketを用いた時間依存アプローチと電子構造の正確な評価を組み合わせたこの手法は、モード歪みとDuschinsky回転の両方をキャプチャする。 本研究では,密度汎関数理論計算から構築した66次元高調波ポテンシャルエネルギー表面上でのウェーブパレットダイナミクスにより,アントラセンのSVLスペクトルを計算する手法を適用した。 Hagedorn の手法では、112^{1}$ と $\overline{11}^{1}$ の計算結果を再現するだけでなく、複数励起レベルからの SVL スペクトルを実験とよく一致させることも可能である。 全てのスペクトルは、基底状態の放出スペクトルに必要とされる以上の伝播を伴わずに、同じウェーブパペット軌道から得られた。

Single vibronic level (SVL) fluorescence spectroscopy contributes to the understanding of molecular vibrational structures and relaxation processes. Here, we present a practical method for computing SVL fluorescence spectra of polyatomic molecules from arbitrary initial vibrational levels. This method, which combines a time-dependent approach using Hagedorn wavepackets with accurate evaluation of electronic structure, captures both mode distortion and Duschinsky rotation. We apply the method to compute SVL spectra of anthracene by performing wavepacket dynamics on a 66- dimensional harmonic potential energy surface constructed from density functional theory calculations. With the Hagedorn approach, we not only reproduce the previously reported simulation results for singly excited $12^{1}$ and $\overline{11}^{1}$ levels, but also are able to compute SVL spectra from multiply excited levels in good agreement with experiments. All spectra were obtained from the same wavepacket trajectory without any additional propagation beyond what is required for ground-state emission spectra.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# 非エルミタン系と$\mathbb{Z}_2$ポイントギャップトポロジーの二重対称性分類

Dual Symmetry Classification of Non-Hermitian Systems and $\mathbb{Z}_2$ Point-Gap Topology of a Non-Unitary Quantum Walk ( http://arxiv.org/abs/2403.04147v3 )

ライセンス: Link先を確認
Zhiyu Jiang, Ryo Okamoto, Hideaki Obuse, (参考訳) 非エルミート系は、エルミート系と比較してよりリッチな位相的性質を示す。 非エルミート系は、非エルミートハミルトニアンの対称性関係か、フロケ位相の文脈における非単位時間進化作用素の対称性関係のいずれかに基づいて分類されたことが知られている。 本研究では、非エルミート系をフロケ位相によらず、非エルミート系を非エルミートハミルトニアンあるいは時間進化作用素の対称性関係を用いて分類することができる。 これを二重対称性分類と呼ぶ。 これを実証するために, 2次元対称性の分類を適用した$\mathbb{Z}_2$点ギャップ位相を用いて点ギャップを示す新しい非ユニタリ量子ウォークを導入し,この量子ウォークの時間進化作用素を非エルミート・ハミルトニアンとして扱う。

Non-Hermitian systems exhibit richer topological properties compared to their Hermitian counterparts. It is well known that non-Hermitian systems have been classified based on either the symmetry relations for non-Hermitian Hamiltonians or the symmetry relations for non-unitary time-evolution operators in the context of Floquet topological phases. In this work, we propose that non-Hermitian systems can always be classified in two ways; a non-Hermitian system can be classified using the symmetry relations for non-Hermitian Hamiltonians or time-evolution operator regardless of the Floquet topological phases or not. We refer to this as dual symmetry classification. To demonstrate this, we successfully introduce a new non-unitary quantum walk that exhibits point gaps with a $\mathbb{Z}_2$ point-gap topological phase applying the dual symmetry classification and treating the time-evolution operator of this quantum walk as the non-Hermitian Hamiltonian.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# UFORecon: 任意および未使用の集合からの一般化可能なスパースビュー表面の再構成

UFORecon: Generalizable Sparse-View Surface Reconstruction from Arbitrary and UnFavOrable Sets ( http://arxiv.org/abs/2403.05086v3 )

ライセンス: Link先を確認
Youngju Na, Woo Jae Kim, Kyu Beom Han, Suhyeon Ha, Sung-eui Yoon, (参考訳) 一般化可能な暗黙的表面再構成は、見えないシーンから限られた数の多視点画像が与えられた場合に、正確な基礎となる幾何を求めることを目的としている。 しかし、既存の手法では、トレーニングとテストのフェーズで事前に定義されたスコアを使用して、情報的および関連するビューのみを選択する。 この制約は、適切な組み合わせの可用性を常に保証できない現実のシナリオにおいて、モデルを実用的でないものにします。 入力ビューの組み合わせの有効性を示すために、ビュー合成スコアを導入し、検証する。 従来の手法は任意かつ好ましくない集合の下で解を退化させる。 この知見に基づいて,堅牢なビュー合成可能な表面再構成フレームワークであるUFOReconを提案する。 これを実現するために、ソース画像間の相互作用をモデル化するクロスビューマッチング変換器と、大域的な相関を捉えるための相関フラストラムを構築する。 さらに、ペアワイズ機能の類似性をビュー一貫性プリミティブとして明示的にエンコードする。 提案手法は,ビュー・コンビネーションの一般化可能性や,ビュー・コンビネーションを訓練した従来の一般化可能なプロトコルにおいて,従来の手法よりも優れていた。 コードはhttps://github.com/Youngju-Na/UFOReconで公開されている。

Generalizable neural implicit surface reconstruction aims to obtain an accurate underlying geometry given a limited number of multi-view images from unseen scenes. However, existing methods select only informative and relevant views using predefined scores for training and testing phases. This constraint renders the model impractical in real-world scenarios, where the availability of favorable combinations cannot always be ensured. We introduce and validate a view-combination score to indicate the effectiveness of the input view combination. We observe that previous methods output degenerate solutions under arbitrary and unfavorable sets. Building upon this finding, we propose UFORecon, a robust view-combination generalizable surface reconstruction framework. To achieve this, we apply cross-view matching transformers to model interactions between source images and build correlation frustums to capture global correlations. Additionally, we explicitly encode pairwise feature similarities as view-consistent priors. Our proposed framework significantly outperforms previous methods in terms of view-combination generalizability and also in the conventional generalizable protocol trained with favorable view-combinations. The code is available at https://github.com/Youngju-Na/UFORecon.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# ディープフェイク映像検出のための爆発型潜水流

Exploiting Style Latent Flows for Generalizing Deepfake Video Detection ( http://arxiv.org/abs/2403.06592v2 )

ライセンス: Link先を確認
Jongwook Choi, Taehoon Kim, Yonghyun Jeong, Seungryul Baek, Jongwon Choi, (参考訳) 提案手法は, 映像の時間的変化における遅延ベクトルの解析と異常挙動に基づいて, フェイクビデオの検出手法を提案する。 生成した顔画像は,様々な表情と幾何変換を伴う時間的安定な映像の生成において必然的に避けられない,スタイル潜時ベクトルの時間的変化の時間的特徴に悩まされていることがわかった。 我々のフレームワークは、スタイル潜在ベクトルの動的特性を表現するために、コントラスト学習によって訓練されたStyleGRUモジュールを利用する。 さらに,StyleGRU生成機能とコンテンツベース機能を統合し,視覚的および時間的アーティファクトの検出を可能にするスタイルアテンションモジュールを導入する。 提案手法はディープフェイク検出における様々なベンチマークシナリオにまたがって,クロスデータセットおよびクロスマニピュレーションシナリオにおいて,その優位性を示す。 さらなる分析を通じて、我々は、ディープフェイクビデオ検出の一般性を改善するために、スタイル潜在ベクトルの時間的変化を用いることの重要性も検証した。

This paper presents a new approach for the detection of fake videos, based on the analysis of style latent vectors and their abnormal behavior in temporal changes in the generated videos. We discovered that the generated facial videos suffer from the temporal distinctiveness in the temporal changes of style latent vectors, which are inevitable during the generation of temporally stable videos with various facial expressions and geometric transformations. Our framework utilizes the StyleGRU module, trained by contrastive learning, to represent the dynamic properties of style latent vectors. Additionally, we introduce a style attention module that integrates StyleGRU-generated features with content-based features, enabling the detection of visual and temporal artifacts. We demonstrate our approach across various benchmark scenarios in deepfake detection, showing its superiority in cross-dataset and cross-manipulation scenarios. Through further analysis, we also validate the importance of using temporal changes of style latent vectors to improve the generality of deepfake video detection.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# PeerAiD:特化ピアチュータによる対向蒸留の改善

PeerAiD: Improving Adversarial Distillation from a Specialized Peer Tutor ( http://arxiv.org/abs/2403.06668v3 )

ライセンス: Link先を確認
Jaewon Jung, Hongsun Jang, Jaeyong Song, Jinho Lee, (参考訳) ニューラルネットワークの敵対的堅牢性は、セキュリティクリティカルなドメインに適用される際の重要な関心事である。 このような状況下では,教師ネットワークのロバスト性を蒸留し,小学生ネットワークのロバスト性を向上することを目的とした,対人蒸留が有望な選択肢である。 従来の研究は教師ネットワークを事前訓練し、それ自身が目指す敵の例に対して堅牢にすることを目的としていた。 しかし、敵の例は対象ネットワークのパラメータに依存する。 固定教師ネットワークは、反対蒸留プロセスにおいて、生徒ネットワークのパラメータをターゲットとした、見知らぬ転向敵の例に対して、必然的にその堅牢性を低下させる。 本稿では,PierAiDを提案することで,ピアネットワークが学生ネットワークの対角的な例を学習できるようにする。 PeerAiDは、学生ネットワークを守るためのピアネットワークを専門化するために、ピアネットワークと学生ネットワークを同時に訓練する逆蒸留である。 このようなピアネットワークは、学生ネットワークを対象とする敵対的事例に対して、事前訓練された頑健な教師モデルの堅牢性を上回ることが観察された。 このピアネットワークと反対蒸留により、PeerAiDはAutoAttack(AA)の精度を1.66%まで向上し、TinyImageNetデータセット上でResNet-18で4.72%まで向上する。 コードはhttps://github.com/jaewonalive/PeerAiD.comで入手できる。

Adversarial robustness of the neural network is a significant concern when it is applied to security-critical domains. In this situation, adversarial distillation is a promising option which aims to distill the robustness of the teacher network to improve the robustness of a small student network. Previous works pretrain the teacher network to make it robust against the adversarial examples aimed at itself. However, the adversarial examples are dependent on the parameters of the target network. The fixed teacher network inevitably degrades its robustness against the unseen transferred adversarial examples which target the parameters of the student network in the adversarial distillation process. We propose PeerAiD to make a peer network learn the adversarial examples of the student network instead of adversarial examples aimed at itself. PeerAiD is an adversarial distillation that trains the peer network and the student network simultaneously in order to specialize the peer network for defending the student network. We observe that such peer networks surpass the robustness of the pretrained robust teacher model against adversarial examples aimed at the student network. With this peer network and adversarial distillation, PeerAiD achieves significantly higher robustness of the student network with AutoAttack (AA) accuracy by up to 1.66%p and improves the natural accuracy of the student network by up to 4.72%p with ResNet-18 on TinyImageNet dataset. Code is available at https://github.com/jaewonalive/PeerAiD.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# ConspEmoLLM:感情に基づく大言語モデルを用いた陰謀理論の検出

ConspEmoLLM: Conspiracy Theory Detection Using an Emotion-Based Large Language Model ( http://arxiv.org/abs/2403.06765v2 )

ライセンス: Link先を確認
Zhiwei Liu, Boyang Liu, Paul Thompson, Kailai Yang, Sophia Ananiadou, (参考訳) インターネットは社会に利益と害をもたらす。 後者の主な例は、陰謀論を含む誤報であり、ウェブを溢れさせる。 近年の自然言語処理,特に大規模言語モデル(LLM)の出現により,正確な誤情報検出の可能性が向上した。 しかし、LLMに基づく陰謀論の検出へのほとんどのアプローチは、二項分類のみに焦点を当て、誤情報と感情的特徴(感情と感情)の間の重要な関係を説明できない。 本研究では,その特徴を明らかにする共謀テキストの包括的分析により,情緒情報を統合し,共謀理論に関連する多種多様なタスクを実行できる,最初のオープンソースLLMであるConspEmoLLMを提案する。 これらのタスクには陰謀論の検出だけでなく、理論の種類の分類や関連する議論(例えば理論に対する意見)の検出も含まれる。 ConspEmoLLMは、我々の新しいConDIDデータセットを用いて感情指向のLLMに基づいて微調整され、LLMのチューニングと評価をサポートする5つのタスクを含む。 これらのタスクに適用した場合、ConspEmoLLMはいくつかのオープンソース汎用ドメイン LLM や ChatGPT よりも優れており、また、ConDID を用いて微調整されているが、情緒的な機能を使用しない LLM も優れていることを実証する。 このプロジェクトはhttps://github.com/lzw108/ConspEmoLLM/でリリースされる。

The internet has brought both benefits and harms to society. A prime example of the latter is misinformation, including conspiracy theories, which flood the web. Recent advances in natural language processing, particularly the emergence of large language models (LLMs), have improved the prospects of accurate misinformation detection. However, most LLM-based approaches to conspiracy theory detection focus only on binary classification and fail to account for the important relationship between misinformation and affective features (i.e., sentiment and emotions). Driven by a comprehensive analysis of conspiracy text that reveals its distinctive affective features, we propose ConspEmoLLM, the first open-source LLM that integrates affective information and is able to perform diverse tasks relating to conspiracy theories. These tasks include not only conspiracy theory detection, but also classification of theory type and detection of related discussion (e.g., opinions towards theories). ConspEmoLLM is fine-tuned based on an emotion-oriented LLM using our novel ConDID dataset, which includes five tasks to support LLM instruction tuning and evaluation. We demonstrate that when applied to these tasks, ConspEmoLLM largely outperforms several open-source general domain LLMs and ChatGPT, as well as an LLM that has been fine-tuned using ConDID, but which does not use affective features. This project will be released on https://github.com/lzw108/ConspEmoLLM/.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# 多数のシーンを効果的に学習するための3次元認識潜時空間の探索

Exploring 3D-aware Latent Spaces for Efficiently Learning Numerous Scenes ( http://arxiv.org/abs/2403.11678v2 )

ライセンス: Link先を確認
Antoine Schnepf, Karim Kassab, Jean-Yves Franceschi, Laurent Caraffa, Flavian Vasile, Jeremie Mary, Andrew Comport, Valérie Gouet-Brunet, (参考訳) 本研究では,NeRFのスケーリングにより,多くの意味的類似シーンを学習する手法を提案する。 必要なトレーニング時間とシーン毎のメモリコストを改善するために、2つのテクニックを組み合わせています。 まず,Tri-Planeのシーン表現を訓練する3D対応潜伏空間を学習し,シーンを学習する解像度を下げる。 さらに,シーン間で共通情報を共有する方法を提案する。これにより,特定のシーンを学習するためのモデル複雑性の低減が可能になる。 本手法は,1000シーンのトレーニングにおいて,有効メモリコストを44%削減し,実時間コストを86%削減する。 私たちのプロジェクトページはhttps://3da-ae.github.io.comで閲覧できます。

We present a method enabling the scaling of NeRFs to learn a large number of semantically-similar scenes. We combine two techniques to improve the required training time and memory cost per scene. First, we learn a 3D-aware latent space in which we train Tri-Plane scene representations, hence reducing the resolution at which scenes are learned. Moreover, we present a way to share common information across scenes, hence allowing for a reduction of model complexity to learn a particular scene. Our method reduces effective per-scene memory costs by 44% and per-scene time costs by 86% when training 1000 scenes. Our project page can be found at https://3da-ae.github.io .
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# Counting-Stars: 長期言語モデル評価のためのマルチエビデンス、位置認識、スケーラブルベンチマーク

Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models ( http://arxiv.org/abs/2403.11802v3 )

ライセンス: Link先を確認
Mingyang Song, Mao Zheng, Xuan Luo, (参考訳) 最近の研究は、長いコンテキストのベンチマークが欠如しているため、堅牢な長期コンテキスト機能を持つLarge Language Models (LLMs)の開発に重点を置いているが、長期コンテキストのLLMの性能についてはあまり分かっていない。 このギャップに対処するために,マルチエビデンス獲得とマルチエビデンス推論という2つのタスクを用いて長文LLMの評価を行う,Counting-Starsという長文LLMの評価のための,マルチエビデンス,位置認識,スケーラブルなベンチマークを提案する。 カウントスター試験に基づき、長文LLM(GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1)の評価実験を行った。 実験結果から,Gemini 1.5 Pro が最も優れた総合的な結果が得られ,GPT-4 Turbo の性能は様々なタスクで最も安定していることがわかった。 さらに、長文シナリオを扱うために拡張されたこれらのLCMの解析により、入力コンテキストの長さとタスクの複雑度が増大するにつれて、改善の可能性が示唆された。

While recent research endeavors have focused on developing Large Language Models (LLMs) with robust long-context capabilities, due to the lack of long-context benchmarks, relatively little is known about how well the performance of long-context LLMs. To address this gap, we propose a multi-evidence, position-aware, and scalable benchmark for evaluating long-context LLMs, named Counting-Stars, which evaluates long-context LLMs by using two tasks: multi-evidence acquisition and multi-evidence reasoning. Based on the Counting-Stars test, we conduct experiments to evaluate long-context LLMs (i.e., GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, and Moonshot-v1). Experimental results demonstrate that Gemini 1.5 Pro achieves the best overall results, while the performance of GPT-4 Turbo is the most stable across various tasks. Furthermore, our analysis of these LLMs, which are extended to handle long-context scenarios, indicates that there is potential for improvement as the length of the input context and the intricacy of the tasks are increasing.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# 宇宙機異常検出のためのディープラーニングアーキテクチャの比較

A Comparison of Deep Learning Architectures for Spacecraft Anomaly Detection ( http://arxiv.org/abs/2403.12864v2 )

ライセンス: Link先を確認
Daniel Lakey, Tim Schlippe, (参考訳) 宇宙船の運用は非常に重要であり、信頼性と安全性が要求される。 宇宙船の最適性能を確保するには、異常を早期に検出し緩和する必要がある。 深層学習の出現により、宇宙操作における異常検出にこれらの洗練されたアルゴリズムを活用することに、関心が高まっている。 本研究では,宇宙船データの異常検出における各種ディープラーニングアーキテクチャの有効性を比較することを目的とする。 調査中のディープラーニングモデルには、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Long Short-Term Memory(LSTM)ネットワーク、Transformerベースのアーキテクチャなどがある。 これらのモデルはそれぞれ、さまざまな運用シナリオと異常なタイプを含む複数のミッションから得られた包括的なデータセットを使用して、トレーニングされ、検証された。 初期の結果は、CNNは空間パターンの同定に優れており、いくつかの種類の宇宙船データに有効であることを示しているが、LSTMとRNNは、時系列の宇宙船テレメトリーで見られる時間異常を捉えるのに顕著な習熟性を示した。 Transformerベースのアーキテクチャは、ローカルとグローバルの両方のコンテキストにフォーカスできることから、特に異常が微妙で、長期間にわたって分散しているシナリオにおいて、有望な結果を示した。 さらに,計算効率,展開容易性,リアルタイム処理能力などの考察も行った。 CNNとLSTMは精度と計算要求のバランスを示したが、Transformerアーキテクチャは精度は高いが、かなりの計算資源を必要とする。 結論として、宇宙船異常検出のためのディープラーニングアーキテクチャの選択は、データの性質、異常の種類、運用上の制約に大きく依存している。

Spacecraft operations are highly critical, demanding impeccable reliability and safety. Ensuring the optimal performance of a spacecraft requires the early detection and mitigation of anomalies, which could otherwise result in unit or mission failures. With the advent of deep learning, a surge of interest has been seen in leveraging these sophisticated algorithms for anomaly detection in space operations. This study aims to compare the efficacy of various deep learning architectures in detecting anomalies in spacecraft data. The deep learning models under investigation include Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs), Long Short-Term Memory (LSTM) networks, and Transformer-based architectures. Each of these models was trained and validated using a comprehensive dataset sourced from multiple spacecraft missions, encompassing diverse operational scenarios and anomaly types. Initial results indicate that while CNNs excel in identifying spatial patterns and may be effective for some classes of spacecraft data, LSTMs and RNNs show a marked proficiency in capturing temporal anomalies seen in time-series spacecraft telemetry. The Transformer-based architectures, given their ability to focus on both local and global contexts, have showcased promising results, especially in scenarios where anomalies are subtle and span over longer durations. Additionally, considerations such as computational efficiency, ease of deployment, and real-time processing capabilities were evaluated. While CNNs and LSTMs demonstrated a balance between accuracy and computational demands, Transformer architectures, though highly accurate, require significant computational resources. In conclusion, the choice of deep learning architecture for spacecraft anomaly detection is highly contingent on the nature of the data, the type of anomalies, and operational constraints.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# 新しい領域を探る:c-VEP BCIの校正不要デコード

Exploring new territory: Calibration-free decoding for c-VEP BCI ( http://arxiv.org/abs/2403.15521v2 )

ライセンス: Link先を確認
J. Thielen, J. Sosulski, M. Tangermann, (参考訳) 本研究では,脳-コンピュータインタフェース(BCI)のユーザビリティ向上を目的とした,校正セッションの不要化を目的とした2つのゼロトレーニング手法について検討した。 本稿では, 事象関連電位 (ERP) 領域に根ざした新しい手法, 教師なし平均最大化 (UMM) を, 高速符号変調視覚誘発電位 (c-VEP) 刺激プロトコルに導入する。 標準相関解析(CCA)を用いて,UMMと最先端のc-VEPゼロトレーニング法を比較した。 比較対象は、CCAとUMMの双方に対して、以前に分類された試験から得られた累積学習と即時分類と分類を含む。 本研究は,c-VEPデータセットの複雑さをナビゲートする手法の有効性を示し,その差と強度を明らかにする。 この研究は、キャリブレーションフリーなBCI手法の実践的実装に関する洞察を提供するだけでなく、さらなる探索と改良の道を開く。 CCAとUMMの融合は、様々なアプリケーション領域にわたるBCIシステムのアクセシビリティとユーザビリティの向上と、多数の刺激プロトコルを約束する。

This study explores two zero-training methods aimed at enhancing the usability of brain-computer interfaces (BCIs) by eliminating the need for a calibration session. We introduce a novel method rooted in the event-related potential (ERP) domain, unsupervised mean maximization (UMM), to the fast code-modulated visual evoked potential (c-VEP) stimulus protocol. We compare UMM to the state-of-the-art c-VEP zero-training method that uses canonical correlation analysis (CCA). The comparison includes instantaneous classification and classification with cumulative learning from previously classified trials for both CCA and UMM. Our study shows the effectiveness of both methods in navigating the complexities of a c-VEP dataset, highlighting their differences and distinct strengths. This research not only provides insights into the practical implementation of calibration-free BCI methods but also paves the way for further exploration and refinement. Ultimately, the fusion of CCA and UMM holds promise for enhancing the accessibility and usability of BCI systems across various application domains and a multitude of stimulus protocols.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# ノイズタグ付き聴覚注意復号化に向けて:パイロット研究

Towards auditory attention decoding with noise-tagging: A pilot study ( http://arxiv.org/abs/2403.15523v2 )

ライセンス: Link先を確認
H. A. Scheppink, S. Ahmadi, P. Desain, M. Tangermann, J. Thielen, (参考訳) AAD(Auditory attention decoding)は、脳活動から参加者の話者の脳活動を抽出することを目的としており、ニューロステアリング補聴器や脳とコンピュータのインターフェイスに有望な応用を提供する。 このパイロット研究は、信頼あるコード変調誘発電位を誘発するノイズタギング刺激プロトコルを用いて、AADに向けての第一歩を踏み出すが、聴覚モードでは最小限に探索される。 参加者は2つのオランダ語音声刺激を連続的に提示し、それぞれに独自の擬似ランダムノイズコードで振幅変調を行った。 我々は、変調されていない音声の復号化を、様々な変調深度で変調されたオーディオと比較し、従来のAAD法と比較した。 実験の結果, 従来手法では変調深度が70~100%であった場合, 非変調オーディオに比べて高い性能を示した。 ノイズコードデコーダはこれらの結果をさらに改善しなかった。 これらの基本的な洞察は、複数の話者が同時に提示されたときの聴覚話者検出を強化するために、音声にノイズコードを統合する可能性を強調する。

Auditory attention decoding (AAD) aims to extract from brain activity the attended speaker amidst candidate speakers, offering promising applications for neuro-steered hearing devices and brain-computer interfacing. This pilot study makes a first step towards AAD using the noise-tagging stimulus protocol, which evokes reliable code-modulated evoked potentials, but is minimally explored in the auditory modality. Participants were sequentially presented with two Dutch speech stimuli that were amplitude-modulated with a unique binary pseudo-random noise-code, effectively tagging these with additional decodable information. We compared the decoding of unmodulated audio against audio modulated with various modulation depths, and a conventional AAD method against a standard method to decode noise-codes. Our pilot study revealed higher performances for the conventional method with 70 to 100 percent modulation depths compared to unmodulated audio. The noise-code decoder did not further improve these results. These fundamental insights highlight the potential of integrating noise-codes in speech to enhance auditory speaker detection when multiple speakers are presented simultaneously.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-17
# IDGenRec: LLM-RecSysアライメントとテキストID学習

IDGenRec: LLM-RecSys Alignment with Textual ID Learning ( http://arxiv.org/abs/2403.19021v2 )

ライセンス: Link先を確認
Juntao Tan, Shuyuan Xu, Wenyue Hua, Yingqiang Ge, Zelong Li, Yongfeng Zhang, (参考訳) LLM(Large Language Models)に基づくジェネレーティブレコメンデーション(ジェネレーティブレコメンデーション)は、従来のランキングベースのレコメンデーションスタイルを、テキストからテキストへの生成パラダイムに変換する。 しかしながら、人間の語彙で本質的に機能する標準的なNLPタスクとは対照的に、ジェネレーティブレコメンデーションにおける現在の研究は、簡潔で意味のあるID表現を用いてテキスト・トゥ・テキスト・フレームワーク内のレコメンデーション項目を効果的にエンコードすることに苦労している。 LLMとレコメンデーションのニーズをよりよく整合させるため、人間の言語トークンを用いて、各項目をユニークで簡潔で、意味的にリッチで、プラットフォームに依存しないテキストIDとして表現するIDGenを提案する。 LLMベースのレコメンデーションと一緒にテキストIDジェネレータをトレーニングすることで、パーソナライズされたレコメンデーションを自然言語生成にシームレスに統合することが可能になる。 特に,ユーザ履歴が自然言語で表現され,元のデータセットから切り離されたため,本手法は基本生成推薦モデルの可能性を示している。 実験により、我々のフレームワークは、標準実験環境下での逐次推薦において、既存のモデルを一貫して上回っていることが明らかとなった。 次に、19の異なるデータセットから収集したデータに基づいて、提案手法を用いて財団推薦モデルをトレーニングし、その推奨性能を、全くゼロショット設定で異なるプラットフォームにまたがる6つの未確認データセットで検証する可能性を検討する。 その結果、事前学習した基礎モデルのゼロショット性能は、教師付きトレーニングに基づく従来のレコメンデーションモデルに匹敵するか、さらに優れていることが示され、ジェネレーティブ・レコメンデーションの基盤モデルとして機能するIDGenパラダイムの可能性が示された。 コードとデータはhttps://github.com/agiresearch/IDGenRec.orgで公開されている。

Generative recommendation based on Large Language Models (LLMs) have transformed the traditional ranking-based recommendation style into a text-to-text generation paradigm. However, in contrast to standard NLP tasks that inherently operate on human vocabulary, current research in generative recommendations struggles to effectively encode recommendation items within the text-to-text framework using concise yet meaningful ID representations. To better align LLMs with recommendation needs, we propose IDGen, representing each item as a unique, concise, semantically rich, platform-agnostic textual ID using human language tokens. This is achieved by training a textual ID generator alongside the LLM-based recommender, enabling seamless integration of personalized recommendations into natural language generation. Notably, as user history is expressed in natural language and decoupled from the original dataset, our approach suggests the potential for a foundational generative recommendation model. Experiments show that our framework consistently surpasses existing models in sequential recommendation under standard experimental setting. Then, we explore the possibility of training a foundation recommendation model with the proposed method on data collected from 19 different datasets and tested its recommendation performance on 6 unseen datasets across different platforms under a completely zero-shot setting. The results show that the zero-shot performance of the pre-trained foundation model is comparable to or even better than some traditional recommendation models based on supervised training, showing the potential of the IDGen paradigm serving as the foundation model for generative recommendation. Code and data are open-sourced at https://github.com/agiresearch/IDGenRec.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# 視線非依存型c-VEP BCIに向けたパイロット研究

Towards gaze-independent c-VEP BCI: A pilot study ( http://arxiv.org/abs/2404.00031v2 )

ライセンス: Link先を確認
S. Narayanan, S. Ahmadi, P. Desain, J. Thielen, (参考訳) 脳コンピュータインタフェース(BCI)のスペルの制限は、ユーザーがターゲットに固定するために目を動かさなければならないことである。 これは、例えば後期筋萎縮性側索硬化症(ALS)の患者など、自発的に眼球運動を制御することができないユーザにとって問題となる。 このパイロット研究は、コード変調された視覚誘発電位(c-VEP)に基づいて、視線に依存しないスペルに向けての第一歩となる。 被験者には2つの横位置刺激が提示され、そのうちの1つは点滅しており、刺激(オーバート状態)を直接観察するか、あるいは空間的注意を用いて眼球運動(カバート状態)の必要性を排除して、これらの刺激の1つに出席するよう指示された。 被験者の刺激は脳波検査(EEG)から復号し, 88%, 100%の分類精度が得られた。 これらの基本的な知見は、両方の刺激が同時に点滅したときに隠れた空間的注意を利用する視線非依存のBCIに対して、c-VEPプロトコルを利用することが期待できる可能性を示している。

A limitation of brain-computer interface (BCI) spellers is that they require the user to be able to move the eyes to fixate on targets. This poses an issue for users who cannot voluntarily control their eye movements, for instance, people living with late-stage amyotrophic lateral sclerosis (ALS). This pilot study makes the first step towards a gaze-independent speller based on the code-modulated visual evoked potential (c-VEP). Participants were presented with two bi-laterally located stimuli, one of which was flashing, and were tasked to attend to one of these stimuli either by directly looking at the stimuli (overt condition) or by using spatial attention, eliminating the need for eye movement (covert condition). The attended stimuli were decoded from electroencephalography (EEG) and classification accuracies of 88% and 100% were obtained for the covert and overt conditions, respectively. These fundamental insights show the promising feasibility of utilizing the c-VEP protocol for gaze-independent BCIs that use covert spatial attention when both stimuli flash simultaneously.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# データ駆動型室内音響モデル -学習遅延線付き微分フィードバック遅延ネットワーク-

Data-Driven Room Acoustic Modeling Via Differentiable Feedback Delay Networks With Learnable Delay Lines ( http://arxiv.org/abs/2404.00082v2 )

ライセンス: Link先を確認
Alessandro Ilic Mezza, Riccardo Giampiccolo, Enzo De Sena, Alberto Bernardini, (参考訳) 過去数十年にわたり、物理環境の室内音響をエミュレートすることを目的とした人工残響アルゴリズムの設計に、広範囲にわたる研究が費やされてきた。 大幅な進歩にもかかわらず、遅延ネットワークモデルの自動パラメータチューニングは未解決の課題である。 本稿では,FDN(Feedback Delay Network)のパラメータを,その出力が測定室のインパルス応答のターゲット属性を描画する新しい手法を提案する。 提案手法は、トレーニング可能な遅延線付き微分可能FDNの実装を伴い、バックプロパゲーションにより、各遅延ネットワークパラメータを同時に学習することができる。 反復最適化プロセスは、エネルギー減衰とエコー密度を考慮した微分可能な項を含む知覚的に動機付けられた時間領域損失関数を最小化する。 実験により,提案手法は所望の音響特性と密に一致できる時間不変周波数非依存FDNを生成し,遺伝的アルゴリズムと解析的FDN設計に基づく既存手法よりも優れていることを示す。

Over the past few decades, extensive research has been devoted to the design of artificial reverberation algorithms aimed at emulating the room acoustics of physical environments. Despite significant advancements, automatic parameter tuning of delay-network models remains an open challenge. We introduce a novel method for finding the parameters of a Feedback Delay Network (FDN) such that its output renders target attributes of a measured room impulse response. The proposed approach involves the implementation of a differentiable FDN with trainable delay lines, which, for the first time, allows us to simultaneously learn each and every delay-network parameter via backpropagation. The iterative optimization process seeks to minimize a perceptually-motivated time-domain loss function incorporating differentiable terms accounting for energy decay and echo density. Through experimental validation, we show that the proposed method yields time-invariant frequency-independent FDNs capable of closely matching the desired acoustical characteristics, and outperforms existing methods based on genetic algorithms and analytical FDN design.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# PreGO:PRocedural EGOセントリックビデオにおけるオンラインエラー検出

PREGO: online mistake detection in PRocedural EGOcentric videos ( http://arxiv.org/abs/2404.01933v2 )

ライセンス: Link先を確認
Alessandro Flaborea, Guido Maria D'Amely di Melendugno, Leonardo Plini, Luca Scofano, Edoardo De Matteis, Antonino Furnari, Giovanni Maria Farinella, Fabio Galasso, (参考訳) オンライン設定で、エゴセントリックなビデオから手続き的エラーを素早く特定することは、間違いをすぐに検出する上で非常に困難で価値のあることです。 この能力は、製造業や医療など、さまざまな分野に適用できる。 手続き的ミスの性質は、新しいタイプの失敗が起こる可能性があり、正しく実行される手順で訓練された一級分類器を要求するため、オープンセットである。 しかし、現在、オープンセットの手続き上の誤りをオンラインで検出する技術はない。 PRocedural EGO 中心ビデオにおける誤り検出のためのオンライン一級分類モデル PreGO を提案する。 PreGOは、現在のアクションをモデル化するオンラインアクション認識コンポーネントと、次のアクションを予測するシンボリック推論モジュールに基づいている。 認識された現在の動作と期待される将来の動作とを比較して誤検出を行う。 我々は、手続き的誤り検出のオンラインベンチマークに適応し、適切なベンチマークを確立するための2つの手続き的自己中心型ビデオデータセットであるAmbly101とEpic-tentについてPreGOを評価し、それぞれAmbly101-OとEpic-tent-Oを定義した。

Promptly identifying procedural errors from egocentric videos in an online setting is highly challenging and valuable for detecting mistakes as soon as they happen. This capability has a wide range of applications across various fields, such as manufacturing and healthcare. The nature of procedural mistakes is open-set since novel types of failures might occur, which calls for one-class classifiers trained on correctly executed procedures. However, no technique can currently detect open-set procedural mistakes online. We propose PREGO, the first online one-class classification model for mistake detection in PRocedural EGOcentric videos. PREGO is based on an online action recognition component to model the current action, and a symbolic reasoning module to predict the next actions. Mistake detection is performed by comparing the recognized current action with the expected future one. We evaluate PREGO on two procedural egocentric video datasets, Assembly101 and Epic-tent, which we adapt for online benchmarking of procedural mistake detection to establish suitable benchmarks, thus defining the Assembly101-O and Epic-tent-O datasets, respectively.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# 睡眠覚醒サイクルの計算モデルについて

On Computational Modeling of Sleep-Wake Cycle ( http://arxiv.org/abs/2404.05484v2 )

ライセンス: Link先を確認
Xin Li, (参考訳) なぜ哺乳類は眠る必要があるのか。 神経科学は、睡眠と覚醒を脳のデフォルトおよび摂動モードとして扱う。 脳は環境入力なしで神経活動を自己組織していると仮定されている。 本稿では,学習と記憶のための睡眠覚醒サイクル(SWC)の新しい計算モデルを提案する。 睡眠モードでは、視床皮質系による記憶の凝縮は、一般化のためにコンテキスト依存表現(CDR)とコンテキスト非依存表現(CIR)をマッピングするアンタングル演算子によって抽象化される。 このような解離作用素は、CDRからコンテキスト変数を統合する積分変換によって数学的に定式化することができる。 ウェイクモード中、海馬-大脳皮質系による記憶形成は、物理的な動きによってコンテキストが導入されたCIRからCDRへの絡み合う演算子によって抽象化される。 帰納バイアスとして設計されると、絡み合ったCDRは、直接フィットすることで感覚記憶における教師なし学習の問題を線形化する。 絡み合わさった作用素と絡み合わさった作用素の結合は、感覚運動学習のためのビルディングブロックとしてディエンタングリング・エンタングリング・サイクル(DEC)を形成する。 また、内的モデル学習における認知行動サイクル(PAC)と、自然言語の生態的起源に対する知覚制御理論との関係についても論じる。

Why do mammals need to sleep? Neuroscience treats sleep and wake as default and perturbation modes of the brain. It is hypothesized that the brain self-organizes neural activities without environmental inputs. This paper presents a new computational model of the sleep-wake cycle (SWC) for learning and memory. During the sleep mode, the memory consolidation by the thalamocortical system is abstracted by a disentangling operator that maps context-dependent representations (CDR) to context-independent representations (CIR) for generalization. Such a disentangling operator can be mathematically formalized by an integral transform that integrates the context variable from CDR. During the wake mode, the memory formation by the hippocampal-neocortical system is abstracted by an entangling operator from CIR to CDR where the context is introduced by physical motion. When designed as inductive bias, entangled CDR linearizes the problem of unsupervised learning for sensory memory by direct-fit. The concatenation of disentangling and entangling operators forms a disentangling-entangling cycle (DEC) as the building block for sensorimotor learning. We also discuss the relationship of DEC and SWC to the perception-action cycle (PAC) for internal model learning and perceptual control theory for the ecological origin of natural languages.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# 注意駆動型マルチエージェント強化学習:エキスパートインフォームドタスクによる意思決定の強化

Attention-Driven Multi-Agent Reinforcement Learning: Enhancing Decisions with Expertise-Informed Tasks ( http://arxiv.org/abs/2404.05840v3 )

ライセンス: Link先を確認
Andre R Kuroswiski, Annie S Wu, Angelo Passaro, (参考訳) 本稿では,ドメイン知識とアテンションに基づく政策機構を統合することで,MARL(Multi-Agent Reinforcement Learning)を強化するための代替手法を提案する。 本手法は,協調行動の開発を簡略化する学習プロセスにドメイン特化専門知識を取り入れることに重点を置いている。 このアプローチは、エージェントが複雑なタスクの本質的な側面に集中できるようにし、学習曲線を最適化することにより、MARLに典型的な複雑性と学習オーバーヘッドを減らすことを目的としている。 注意機構の利用は,我々のモデルにおいて重要な役割を担っている。 動的コンテキストデータの効率的な処理とニュアンスされたエージェントインタラクションを可能にし、より洗練された意思決定につながる。 本手法は,Stanford Intelligent Systems Laboratory (SISL) Pursuit and Multi-Particle Environments (MPE) Simple Spreadなどの標準的なMARLシナリオに適用し,学習効率と協調行動の有効性を両立させる。 その結果、我々の注意に基づくアプローチは、MARLトレーニングプロセスの効率を向上し、ドメイン固有の知識をアクションレベルで統合するための有効なアプローチである可能性が示唆された。

In this paper, we introduce an alternative approach to enhancing Multi-Agent Reinforcement Learning (MARL) through the integration of domain knowledge and attention-based policy mechanisms. Our methodology focuses on the incorporation of domain-specific expertise into the learning process, which simplifies the development of collaborative behaviors. This approach aims to reduce the complexity and learning overhead typically associated with MARL by enabling agents to concentrate on essential aspects of complex tasks, thus optimizing the learning curve. The utilization of attention mechanisms plays a key role in our model. It allows for the effective processing of dynamic context data and nuanced agent interactions, leading to more refined decision-making. Applied in standard MARL scenarios, such as the Stanford Intelligent Systems Laboratory (SISL) Pursuit and Multi-Particle Environments (MPE) Simple Spread, our method has been shown to improve both learning efficiency and the effectiveness of collaborative behaviors. The results indicate that our attention-based approach can be a viable approach for improving the efficiency of MARL training process, integrating domain-specific knowledge at the action level.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# 機械学習に基づく不織布の均質性の最適化ワークフローと人間の検証

Machine learning-based optimization workflow of the homogeneity of spunbond nonwovens with human validation ( http://arxiv.org/abs/2404.09604v2 )

ライセンス: Link先を確認
Viny Saajan Victor, Andre Schmeißer, Heike Leitte, Simone Gramsch, (参考訳) 過去10年間で、不織布生産の平均成長率は4%だった。 2020年と2021年には、新型コロナウイルスのパンデミックに対処するため、FFP2マスクなどの保護服に必要な不織布製品が大量に需要されているため、不織布の生産がさらに増加した。 生産プロセスの最適化は、高い非線形性のため、依然として課題である。 本稿では,スポンボンド不織布の均一性向上を目的とした機械学習に基づく最適化ワークフローを提案する。 最適化ワークフローは、非織布のミクロ構造をシミュレートする数学的モデルに基づいている。 このシミュレータから得られる訓練的なデータに基づいて、異なる機械学習アルゴリズムが訓練され、時間を要するシミュレータの代理モデルを見つける。 人間の検証は、不織布の美学を評価することによって、機械学習アルゴリズムの出力を検証するために用いられる。 我々は、最適化プロセスにかかわる計算コストを削減するため、トレーニングデータに科学的および専門的な知識を含める。 非織布の均一性を最適化するためのワークフローの必要性と有効性を示す。

In the last ten years, the average annual growth rate of nonwoven production was 4%. In 2020 and 2021, nonwoven production has increased even further due to the huge demand for nonwoven products needed for protective clothing such as FFP2 masks to combat the COVID19 pandemic. Optimizing the production process is still a challenge due to its high nonlinearity. In this paper, we present a machine learning-based optimization workflow aimed at improving the homogeneity of spunbond nonwovens. The optimization workflow is based on a mathematical model that simulates the microstructures of nonwovens. Based on trainingy data coming from this simulator, different machine learning algorithms are trained in order to find a surrogate model for the time-consuming simulator. Human validation is employed to verify the outputs of machine learning algorithms by assessing the aesthetics of the nonwovens. We include scientific and expert knowledge into the training data to reduce the computational costs involved in the optimization process. We demonstrate the necessity and effectiveness of our workflow in optimizing the homogeneity of nonwovens.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# 2段階のスタンスラベル:グラフニューラルネットワークを用いたユーザハッシュタグヒューリスティックス

Two-Stage Stance Labeling: User-Hashtag Heuristics with Graph Neural Networks ( http://arxiv.org/abs/2404.10228v2 )

ライセンス: Link先を確認
Joshua Melton, Shannon Reid, Gabriel Terejanu, Siddharth Krishnan, (参考訳) ソーシャルメディア上でのコンテンツ量の増大と急速な進化は、ソーシャルメディア利用者のスタンスを研究する上で大きな課題となる。 本研究では,ユーザ・ハッシュタグ二部グラフとユーザ・ユーザ・インタラクショングラフを用いた2段階のスタンスラベリング手法を提案する。 第1段階では、ユーザのハッシュタグ二部グラフを用いて、ラベル伝搬機構を介して、ユーザとハッシュタグノードのスタンス関連を反復的に更新する。 このソフトラベルのセットは、ユーザとユーザのインタラクショングラフに統合され、半教師付き学習を使用してグラフニューラルネットワーク(GNN)モデルをトレーニングする。 本手法は,2021年6月から2022年6月までの気候変動に関連するツイートと,2022年1月から2023年1月までの銃規制を含む2つの大規模データセットに対して評価を行った。 実験により,ユーザインタラクショングラフからのネットワーク情報を用いたユーザによるテキストベースの埋め込みを半教師付きGNN法により強化し,ユーザテキスト埋め込みを訓練した分類器と,GPT4などのLCMを用いたゼロショット分類の両方より優れていることが示された。 我々は、気候変動や銃規制といった様々な問題に対して、ソーシャルメディア上での偏極がいかに起こるかをよりよく理解するために、社会科学からの微妙な理解と計算手法のスケーラビリティを統合する必要性について論じる。

The high volume and rapid evolution of content on social media present major challenges for studying the stance of social media users. In this work, we develop a two stage stance labeling method that utilizes the user-hashtag bipartite graph and the user-user interaction graph. In the first stage, a simple and efficient heuristic for stance labeling uses the user-hashtag bipartite graph to iteratively update the stance association of user and hashtag nodes via a label propagation mechanism. This set of soft labels is then integrated with the user-user interaction graph to train a graph neural network (GNN) model using semi-supervised learning. We evaluate this method on two large-scale datasets containing tweets related to climate change from June 2021 to June 2022 and gun control from January 2022 to January 2023. Our experiments demonstrate that enriching text-based embeddings of users with network information from the user interaction graph using our semi-supervised GNN method outperforms both classifiers trained on user textual embeddings and zero-shot classification using LLMs such as GPT4. We discuss the need for integrating nuanced understanding from social science with the scalability of computational methods to better understand how polarization on social media occurs for divisive issues such as climate change and gun control.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# HelixFold-Multimer:新しい高さへのタンパク質複合体構造予測

HelixFold-Multimer: Elevating Protein Complex Structure Prediction to New Heights ( http://arxiv.org/abs/2404.10260v2 )

ライセンス: Link先を確認
Xiaomin Fang, Jie Gao, Jing Hu, Lihang Liu, Yang Xue, Xiaonan Zhang, Kunrui Zhu, (参考訳) モノマータンパク質構造予測ツールは驚くほどの精度を誇っているが、タンパク質複合体構造の予測はこの分野において大きな課題である。 この課題は、抗原と抗体の相互作用など、異なる種のタンパク質鎖との複合体が、精度が低いケースで特に顕著である。 複雑な予測の精度によって制限された、正確なタンパク質とタンパク質の相互作用分析に基づくタスクも障害に直面している。 本稿では,タンパク質複合体構造予測モデルであるHelixFold-Multimerの進歩について述べる。 HelixFold-Multimerは、タンパク質の複雑な構造を正確に予測する。 特に、HelixFold-Multimerは抗原抗体およびペプチドタンパク質構造予測において、AlphaFold 3を大きく上回っている。 HelixFold-MultimerはPaddleHelixプラットフォームで公開されている。 研究者たちは、このサービスを自分たちの開発ニーズのために便利に利用することができる。

While monomer protein structure prediction tools boast impressive accuracy, the prediction of protein complex structures remains a daunting challenge in the field. This challenge is particularly pronounced in scenarios involving complexes with protein chains from different species, such as antigen-antibody interactions, where accuracy often falls short. Limited by the accuracy of complex prediction, tasks based on precise protein-protein interaction analysis also face obstacles. In this report, we highlight the ongoing advancements of our protein complex structure prediction model, HelixFold-Multimer, underscoring its enhanced performance. HelixFold-Multimer provides precise predictions for diverse protein complex structures, especially in therapeutic protein interactions. Notably, HelixFold-Multimer achieves remarkable success in antigen-antibody and peptide-protein structure prediction, greatly surpassing AlphaFold 3. HelixFold-Multimer is now available for public use on the PaddleHelix platform, offering both a general version and an antigen-antibody version. Researchers can conveniently access and utilize this service for their development needs.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# 効率的なラベレス自動訓練戦略を用いた携帯電話による分散型環境温度測定システム

A Phone-based Distributed Ambient Temperature Measurement System with An Efficient Label-free Automated Training Strategy ( http://arxiv.org/abs/2404.10401v2 )

ライセンス: Link先を確認
Dayin Chen, Xiaodan Shi, Haoran Zhang, Xuan Song, Dongxiao Zhang, Yuntian Chen, Jinyue Yan, (参考訳) 建物のエネルギー効率の向上は、屋内の環境温度のモニタリングに大きく依存している。 従来の温度測定手法の潜在的な限界は、スマートフォンの非存在とともに、携帯電話による環境温度推定手法の探究に対する研究者の意識をリダイレクトしている。 しかし、既存の電話ベースの手法では、プライバシー保護の不足、様々な電話にモデルを適用することの難しさ、十分なラベル付きトレーニングデータを取得することのハードルなど、課題に直面している。 本研究では,屋内空間の異なる領域の環境温度を正確に測定する分散電話を用いた環境温度推定システムを提案する。 このシステムは、数ショットのメタ学習モジュールと自動ラベル生成モジュールを備えた効率的で費用対効果の高いアプローチも提供する。 5つの新しいトレーニングデータポイントで、温度推定モデルが新しいスマートフォンに適応し、優れたパフォーマンスを達成できることが示される。 さらに,クラウドソーシングを用いて,新たに収集したトレーニングデータの正確なラベルを生成することで,コストを大幅に削減する。 さらに,プライバシ保護を強化するために,フェデレーション学習をシステムに組み込むことの可能性を強調した。 本研究では,電話による環境温度測定の実用化を推進し,ビルの省エネ活動を促進することができると考えている。

Enhancing the energy efficiency of buildings significantly relies on monitoring indoor ambient temperature. The potential limitations of conventional temperature measurement techniques, together with the omnipresence of smartphones, have redirected researchers'attention towards the exploration of phone-based ambient temperature estimation methods. However, existing phone-based methods face challenges such as insufficient privacy protection, difficulty in adapting models to various phones, and hurdles in obtaining enough labeled training data. In this study, we propose a distributed phone-based ambient temperature estimation system which enables collaboration among multiple phones to accurately measure the ambient temperature in different areas of an indoor space. This system also provides an efficient, cost-effective approach with a few-shot meta-learning module and an automated label generation module. It shows that with just 5 new training data points, the temperature estimation model can adapt to a new phone and reach a good performance. Moreover, the system uses crowdsourcing to generate accurate labels for all newly collected training data, significantly reducing costs. Additionally, we highlight the potential of incorporating federated learning into our system to enhance privacy protection. We believe this study can advance the practical application of phone-based ambient temperature measurement, facilitating energy-saving efforts in buildings.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# Pose2Gest:南インド古典舞踊ジェスチャ認識に応用された数ショットモデルフリーアプローチ

Pose2Gest: A Few-Shot Model-Free Approach Applied In South Indian Classical Dance Gesture Recognition ( http://arxiv.org/abs/2404.11205v2 )

ライセンス: Link先を確認
Kavitha Raju, Nandini J. Warrier, Manu Madhavan, Selvi C., Arun B. Warrier, Thulasi Kumar, (参考訳) インドからの古典的な踊りは、ムドラと呼ばれる一連の手振りを用いており、その姿勢の語彙の基礎的な要素となっている。 これらの泥を識別することは、ダンス演奏のデジタル化における主要な課題である。 ダンスドラマであるKathakaliを焦点とし、24クラス分類問題としてフレーミングすることで泥岩認識に対処し、ポーズ推定技術を活用した新しいベクトル類似性に基づくアプローチを提案する。 この方法では、広範囲なトレーニングや微調整の必要性がなくなるため、同様のAIアプリケーションで一般的な限られたデータ可用性の問題が軽減される。 提案手法は,92%の精度を達成し,既存のモデル学習手法に匹敵する,あるいは優れた性能を示す。 特に、わずか1つか5つのサンプルからなる小さなデータセットでも有効であり、性能はわずかに低下している。 さらに,本システムでは画像,ビデオ,リアルタイムストリームの処理をサポートし,手書き画像とフルボディ画像の両方を収容する。 この研究の一環として、我々は、Kathakaliを含む複数の南インド美術形式に適用可能な、公開アクセス可能なHasta Mudraデータセットをキュレートし、リリースした。 提案手法の実装もWebアプリケーションとして利用可能である。

The classical dances from India utilize a set of hand gestures known as Mudras, serving as the foundational elements of its posture vocabulary. Identifying these mudras represents a primary task in digitizing the dance performances. With Kathakali, a dance-drama, as the focus, this work addresses mudra recognition by framing it as a 24-class classification problem and proposes a novel vector-similarity-based approach leveraging pose estimation techniques. This method obviates the need for extensive training or fine-tuning, thus mitigating the issue of limited data availability common in similar AI applications. Achieving an accuracy rate of 92%, our approach demonstrates comparable or superior performance to existing model-training-based methodologies in this domain. Notably, it remains effective even with small datasets comprising just 1 or 5 samples, albeit with a slightly diminished performance. Furthermore, our system supports processing images, videos, and real-time streams, accommodating both hand-cropped and full-body images. As part of this research, we have curated and released a publicly accessible Hasta Mudra dataset, which applies to multiple South Indian art forms including Kathakali. The implementation of the proposed method is also made available as a web application.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-17
# 有限頻度論は量子確率を説明する

Finite frequentism explains quantum probability ( http://arxiv.org/abs/2404.12954v3 )

ライセンス: Link先を確認
Simon Saunders, (参考訳) 古典的な統計力学における確率の説明として、頻繁性は、古典的な位相空間の類似である非コヒーレントな量子歴史空間に自然に拡張できることを示す。 その結果は有限頻度論の一形態であり、ガスの無限アンサンブルというギブスの概念は、有限個のデコヒーリングマイクロステートの重ね合わせとして表される量子状態に置き換えられる。 量子力学のデコヒーレンスに基づくエヴェレット解釈に従えば、マクロ的に異なるかもしれないにもかかわらず、すべてのミクロ状態が存在するため、有限かつ実際の(仮説的な)頻繁性(英語版)の形式である。

I show that frequentism, as an explanation of probability in classical statistical mechanics, can be extended in a natural way to a decoherent quantum history space, the analogue of a classical phase space. The result is a form of finite frequentism, in which the Gibbs concept of an infinite ensemble of gases is replaced by the quantum state expressed as a superposition of a finite number of decohering microstates. It is a form of finite and actual (as opposed to hypothetical) frequentism insofar as all the microstates exist, even though they may differ macroscopically, in keeping with the decoherence-based Everett interpretation of quantum mechanics.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 知覚多様体の内在次元によるDNNの解離と緩和

Unveiling and Mitigating Generalized Biases of DNNs through the Intrinsic Dimensions of Perceptual Manifolds ( http://arxiv.org/abs/2404.13859v2 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Lingling Li, Wenping Ma, Shuyuan Yang, Xu Liu, Puhua Chen, (参考訳) 公正なディープニューラルネットワーク(DNN)の構築は、信頼できる人工知能を達成するための重要なステップである。 DNNの公平性に影響を与えるより深い要因を掘り下げることが最重要であり、モデルバイアスを軽減する基盤となっている。 しかし、現在の手法は、DNNバイアスを正確に予測し、トレーニングサンプルの数にのみ依存し、より正確な測定ツールが欠如している。 そこで我々は,DNNの公正性を分析する幾何学的視点を確立し,データセットの内在的幾何学的特徴,知覚多様体の内在的次元(ID),およびDNNの公正性に対するIDの影響を包括的に考察する。 複数の知見に基づいて,モデルの公正さと性能を向上する固有次元正規化(IDR)を提案し,簡潔かつIDバランスの取れたクラス知覚多様体の学習を促進する。 様々な画像認識ベンチマークテストにおいて、IDRはモデルバイアスを低減し、性能を向上する。

Building fair deep neural networks (DNNs) is a crucial step towards achieving trustworthy artificial intelligence. Delving into deeper factors that affect the fairness of DNNs is paramount and serves as the foundation for mitigating model biases. However, current methods are limited in accurately predicting DNN biases, relying solely on the number of training samples and lacking more precise measurement tools. Here, we establish a geometric perspective for analyzing the fairness of DNNs, comprehensively exploring how DNNs internally shape the intrinsic geometric characteristics of datasets-the intrinsic dimensions (IDs) of perceptual manifolds, and the impact of IDs on the fairness of DNNs. Based on multiple findings, we propose Intrinsic Dimension Regularization (IDR), which enhances the fairness and performance of models by promoting the learning of concise and ID-balanced class perceptual manifolds. In various image recognition benchmark tests, IDR significantly mitigates model bias while improving its performance.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 強化学習によるクリフォード+T回路の単元合成

Unitary Synthesis of Clifford+T Circuits with Reinforcement Learning ( http://arxiv.org/abs/2404.14865v3 )

ライセンス: Link先を確認
Sebastian Rietsch, Abhishek Y. Dubey, Christian Ufrecht, Maniraman Periyasamy, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, (参考訳) 本稿では,量子回路にユニタリを合成する深層強化学習手法を提案する。 ユニタリ合成は、回路深さ、総ゲート数、特定のゲート数、またはこれらの組み合わせを最小化しながら、与えられたユニタリを表す量子回路を特定することを目的としている。 過去の研究は主に連続ゲート集合に焦点を当ててきたが、パラメータフリーなクリフォード+Tゲート集合からユニタリを合成することは依然として困難である。 このタスクの時間的複雑さは、一般的なユニタリーのキュービット数では必然的に指数関数的であり続けるが、単純な問題インスタンスのランタイムを減らすことは、依然として大きな課題である。 本研究では,木探索法であるGumbel AlphaZeroを用いて,正確に合成可能なClifford+Tユニタリの部分集合の問題を解く。 提案手法では,最大60ゲートのランダム化量子回路の集合から最大5キュービットのユニタリを合成できる。 さらに、我々の推論時間は、平均して1つのGPU上で30秒程度であり、より高い量子ビット数に対して、最先端のアルゴリズムであるQuantumCircuitOptとMIN-T-SYNTHを上回っている。 我々の研究は、今後数年で開発される合成アルゴリズムの競争ベースラインを提供する。

This paper presents a deep reinforcement learning approach for synthesizing unitaries into quantum circuits. Unitary synthesis aims to identify a quantum circuit that represents a given unitary while minimizing circuit depth, total gate count, a specific gate count, or a combination of these factors. While past research has focused predominantly on continuous gate sets, synthesizing unitaries from the parameter-free Clifford+T gate set remains a challenge. Although the time complexity of this task will inevitably remain exponential in the number of qubits for general unitaries, reducing the runtime for simple problem instances still poses a significant challenge. In this study, we apply the tree-search method Gumbel AlphaZero to solve the problem for a subset of exactly synthesizable Clifford+T unitaries. Our approach can synthesize unitaries for up to five qubits generated from the set of randomized quantum circuits with up to 60 gates. Furthermore, our inference times are around 30 seconds on a single GPU on average, surpassing state-of-the-art algorithms QuantumCircuitOpt and MIN-T-SYNTH for higher qubit numbers. Our work provides a competitive baseline for synthesis algorithms to be developed in the upcoming years.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 構造的に柔軟なニューラルネットワーク:汎用エージェントのためのビルディングブロックを進化させる

Structurally Flexible Neural Networks: Evolving the Building Blocks for General Agents ( http://arxiv.org/abs/2404.15193v2 )

ライセンス: Link先を確認
Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Milton Montero, Sebastian Risi, (参考訳) 強化学習に使用される人工ニューラルネットワークは構造的に剛性があり、ネットワークのそれぞれの最適化されたパラメータは、ネットワーク構造内の特定の位置と結びついている。 また、ネットワークは事前に定義された、固定された入力サイズと出力サイズでしか動作しない。 これは、最適化されたパラメータの数がネットワーク構造に直接依存する結果である。 構造的剛性は、入力空間と出力空間を共有しない複数の環境にまたがるポリシーのパラメータを最適化する能力を制限する。 そこで我々は、それぞれゲートリカレントユニット(GRU)で表される神経細胞とプラスチックシナプスの集合を進化させる。 最適化の間、ニューラルネットワークの基本単位のパラメータは、異なるランダムな構造構成で最適化される。 これまでの研究では、構造的に柔軟なニューロンを作るためには、ユニット間のパラメータ共有が重要であることが示されており、対称性ジレンマの緩和を可能にする、異なるニューロンとシナプス型のセットを最適化できることが示されている。 一つのニューロンとシナプスの集合を最適化して、複数の強化学習制御タスクを同時に解くことで、これを実証する。

Artificial neural networks used for reinforcement learning are structurally rigid, meaning that each optimized parameter of the network is tied to its specific placement in the network structure. It also means that a network only works with pre-defined and fixed input- and output sizes. This is a consequence of having the number of optimized parameters being directly dependent on the structure of the network. Structural rigidity limits the ability to optimize parameters of policies across multiple environments that do not share input and output spaces. Here, we evolve a set of neurons and plastic synapses each represented by a gated recurrent unit (GRU). During optimization, the parameters of these fundamental units of a neural network are optimized in different random structural configurations. Earlier work has shown that parameter sharing between units is important for making structurally flexible neurons We show that it is possible to optimize a set of distinct neuron- and synapse types allowing for a mitigation of the symmetry dilemma. We demonstrate this by optimizing a single set of neurons and synapses to solve multiple reinforcement learning control tasks simultaneously.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# Bi-Mamba+:時系列予測のための双方向マンバ

Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting ( http://arxiv.org/abs/2404.15772v2 )

ライセンス: Link先を確認
Aobo Liang, Xingguo Jiang, Yan Sun, Xiaohou Shi, Ke Li, (参考訳) 長期時系列予測(LTSF)は、将来のトレンドとパターンに関するより長い洞察を提供する。 過去数年間、ディープラーニングモデル、特にトランスフォーマーはLTSFタスクで高度なパフォーマンスを実現してきた。 しかしLTSFは、長期的な依存関係のキャプチャやスパースなセマンティック特性といった、固有の課題に直面している。 近年,Mamba という新しい状態空間モデル (SSM) が提案されている。 入力データに対する選択的機能とハードウェア対応並列計算アルゴリズムにより、Mambaはトランスフォーマーと比較して予測性能と計算効率のバランスをとる大きな可能性を示した。 より長い範囲で歴史的情報を保存するマンバの能力を高めるため,マンバ内部に忘れ門を付加して新しいマンバ+ブロックを設計し,その特徴と歴史的特徴を補完的に選択的に組み合わせた。 さらに,Mamba+を前後の両方に適用し,時系列要素間の相互作用を捉えるモデルの能力を促進することを目的としたBi-Mamba+を提案する。 さらに、異なるシナリオにおける多変量時系列データは、シリーズ内またはシリーズ間依存関係に様々な重点を置いている可能性がある。 そこで本研究では,特定のデータセットに対するチャネル非依存もしくはチャネル混合トークン化戦略の活用を制御できる系列関係対応型決定器を提案する。 8つの実世界のデータセットに対する大規模な実験により、我々のモデルは最先端の手法と比較してより正確な予測を達成できることを示した。

Long-term time series forecasting (LTSF) provides longer insights into future trends and patterns. Over the past few years, deep learning models especially Transformers have achieved advanced performance in LTSF tasks. However, LTSF faces inherent challenges such as long-term dependencies capturing and sparse semantic characteristics. Recently, a new state space model (SSM) named Mamba is proposed. With the selective capability on input data and the hardware-aware parallel computing algorithm, Mamba has shown great potential in balancing predicting performance and computational efficiency compared to Transformers. To enhance Mamba's ability to preserve historical information in a longer range, we design a novel Mamba+ block by adding a forget gate inside Mamba to selectively combine the new features with the historical features in a complementary manner. Furthermore, we apply Mamba+ both forward and backward and propose Bi-Mamba+, aiming to promote the model's ability to capture interactions among time series elements. Additionally, multivariate time series data in different scenarios may exhibit varying emphasis on intra- or inter-series dependencies. Therefore, we propose a series-relation-aware decider that controls the utilization of channel-independent or channel-mixing tokenization strategy for specific datasets. Extensive experiments on 8 real-world datasets show that our model achieves more accurate predictions compared with state-of-the-art methods.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 自然画像統計特性に基づくスプリシング画像検出アルゴリズムに関する研究

Research on Splicing Image Detection Algorithms Based on Natural Image Statistical Characteristics ( http://arxiv.org/abs/2404.16296v3 )

ライセンス: Link先を確認
Ao Xiang, Jingyu Zhang, Qin Yang, Liyang Wang, Yu Cheng, (参考訳) デジタル画像処理技術の発展と普及により、画像スプライシングは画像操作の一般的な方法となり、多くのセキュリティや法的問題を提起している。 本稿では,自然画像の統計的特徴に基づく新しいスプライシング画像検出アルゴリズムを提案し,スプライシング画像検出の精度と効率を向上させることを目的とした。 従来の手法の限界を解析することにより,高度な統計解析手法と機械学習手法を統合した検出フレームワークを開発した。 このアルゴリズムは、複数の公開データセットを用いて検証され、スプライシングエッジの検出と、改ざんされた領域の位置の特定に高い精度と、優れたロバスト性を示す。 さらに,実世界のシナリオにおいて,アルゴリズムが直面する潜在的な応用と課題についても検討する。 本研究は、画像改ざん検出の分野で有効な技術手段を提供するだけでなく、将来的な研究のための新しいアイデアや方法も提供する。

With the development and widespread application of digital image processing technology, image splicing has become a common method of image manipulation, raising numerous security and legal issues. This paper introduces a new splicing image detection algorithm based on the statistical characteristics of natural images, aimed at improving the accuracy and efficiency of splicing image detection. By analyzing the limitations of traditional methods, we have developed a detection framework that integrates advanced statistical analysis techniques and machine learning methods. The algorithm has been validated using multiple public datasets, showing high accuracy in detecting spliced edges and locating tampered areas, as well as good robustness. Additionally, we explore the potential applications and challenges faced by the algorithm in real-world scenarios. This research not only provides an effective technological means for the field of image tampering detection but also offers new ideas and methods for future related research.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 格子外科用SATスカルペル:表面コードフォールトトレラント量子コンピューティングのためのサブルーチンの表現と合成

A SAT Scalpel for Lattice Surgery: Representation and Synthesis of Subroutines for Surface-Code Fault-Tolerant Quantum Computing ( http://arxiv.org/abs/2404.18369v2 )

ライセンス: Link先を確認
Daniel Bochen Tan, Murphy Yuezhen Niu, Craig Gidney, (参考訳) 大規模量子コンピューティングには量子エラー補正が必要である。 有望な量子誤り訂正符号は表面符号である。 このコードに対して、フォールトトレラント量子コンピューティング(FTQC)は格子手術、すなわちコードのパッチの分割とマージによって行うことができる。 格子型サブルーチン(LaS)の頻繁な使用を考えると,FTQCの時空容積を最小化するために,それらの設計を最適化することが重要である。 本研究では,LaSを表す変数と,これらの変数の制約を定義する。 この定式化を利用して、LaSの合成器LaSsynthを開発し、LaSの構成問題をSATインスタンスにエンコードし、SATソルバに解を求める。 ベースライン設計から始めると、時空体積を縮めた解法を徐々に呼び出すことができ、よりコンパクトな設計を導出できる。 我々の基礎的な定式化とSATソルバの使用により、LaSynthは設計空間を徹底的に探索し、最適設計を容積で得ることができる。 例えば、FTQCのボトルネックである15-to-1 T-factoryの2つの最先端の人間設計に対して、それぞれ8%と18%のボリューム削減を実現している。

Quantum error correction is necessary for large-scale quantum computing. A promising quantum error correcting code is the surface code. For this code, fault-tolerant quantum computing (FTQC) can be performed via lattice surgery, i.e., splitting and merging patches of code. Given the frequent use of certain lattice-surgery subroutines (LaS), it becomes crucial to optimize their design in order to minimize the overall spacetime volume of FTQC. In this study, we define the variables to represent LaS and the constraints on these variables. Leveraging this formulation, we develop a synthesizer for LaS, LaSsynth, that encodes a LaS construction problem into a SAT instance, subsequently querying SAT solvers for a solution. Starting from a baseline design, we can gradually invoke the solver with shrinking spacetime volume to derive more compact designs. Due to our foundational formulation and the use of SAT solvers, LaSsynth can exhaustively explore the design space, yielding optimal designs in volume. For example, it achieves 8% and 18% volume reduction respectively over two states-of-the-art human designs for the 15-to-1 T-factory, a bottleneck in FTQC.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 機械学習による展開の風景

The Landscape of Unfolding with Machine Learning ( http://arxiv.org/abs/2404.18807v2 )

ライセンス: Link先を確認
Nathan Huetsch, Javier Mariño Villadamigo, Alexander Shmakov, Sascha Diefenbacher, Vinicius Mikuni, Theo Heimel, Michael Fenton, Kevin Greif, Benjamin Nachman, Daniel Whiteson, Anja Butter, Tilman Plehn, (参考訳) 機械学習による最近のイノベーションは、データの展開を可能にし、多くの次元にまたがる相関を含む。 MLベースの展開のための、既知の、アップグレードされた、そして新しい方法のセットについて説明する。 これらの手法の性能は、同じ2つのデータセットで評価される。 すべての技術が複雑な観測可能な領域で粒子レベルのスペクトルを正確に再現できることがわかった。 これらのアプローチが概念的に多様であることを考えると、彼らは新しい種類の測定のエキサイティングなツールキットを提供し、標準モデルを前例のないレベルの詳細で探究し、新しい現象に対する感度を高めることができる。

Recent innovations from machine learning allow for data unfolding, without binning and including correlations across many dimensions. We describe a set of known, upgraded, and new methods for ML-based unfolding. The performance of these approaches are evaluated on the same two datasets. We find that all techniques are capable of accurately reproducing the particle-level spectra across complex observables. Given that these approaches are conceptually diverse, they offer an exciting toolkit for a new class of measurements that can probe the Standard Model with an unprecedented level of detail and may enable sensitivity to new phenomena.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# HLSFactory: マシンラーニングなどのための高レベルな合成データセットを実現するフレームワーク

HLSFactory: A Framework Empowering High-Level Synthesis Datasets for Machine Learning and Beyond ( http://arxiv.org/abs/2405.00820v2 )

ライセンス: Link先を確認
Stefan Abi-Karam, Rishov Sarkar, Allison Seigler, Sean Lowe, Zhigang Wei, Hanqiu Chen, Nanditha Rao, Lizy John, Aman Arora, Cong Hao, (参考訳) 機械学習(ML)技術は、QoR予測と設計空間探索(DSE)のための高レベル合成(HLS)フローに適用されている。 それでも、アクセス可能な高品質なHLSデータセットの不足と、そのようなデータセットの構築の複雑さは、課題を提示している。 既存のデータセットには、ベンチマークカバレッジ、設計スペースの列挙、ベンダーの拡張性、あるいはデータセット構築のための再現可能で拡張可能なソフトウェアがないという制限がある。 多くの作品には、より多くのデザインを追加するためのユーザフレンドリな方法が欠けており、そのようなデータセットの採用が制限されている。 これらの課題に対応するため、高品質なHLS設計データセットのキュレーションと生成を容易にするために設計された包括的なフレームワークHLSFactoryを紹介した。 HLSFactoryには3つの主要なステージがある。 1)複数のベンダーツールにまたがる様々な最適化ディレクティブを用いて、単一のHLS設計を大きな設計空間に精巧にするための設計空間拡張ステージ。 2) HLS と FPGA ツールを同時に動作させる設計合成ステージ,及び 3) 標準化されたデータをML使用のためにパッケージ化されたデータセットに抽出するデータ集約ステージ。 この三部構成アーキテクチャは、設計空間の拡張を通じて広い設計空間をカバーし、複数のベンダーツールをサポートする。 ユーザはそれぞれのステージに独自のHLS設計と合成結果を提供し、フレームワーク自体を独自のフロントエンドとツールフローで拡張することができる。 また、オープンソースのHLS設計をキュレートした一般的なHLSベンチマークから、初期の組込み設計も含んでいます。 I)設計空間サンプリング, II) きめ細かい並列処理バックエンドの高速化, III) IntelのHLSフローのターゲット化, IV) 新しい補助設計の追加, V) 公開されたHLSデータの統合, VI) HLSツールバージョンレグレッションベンチマーク。 コードネームはhttps://github.com/sharc-lab/HLSFactory。

Machine learning (ML) techniques have been applied to high-level synthesis (HLS) flows for quality-of-result (QoR) prediction and design space exploration (DSE). Nevertheless, the scarcity of accessible high-quality HLS datasets and the complexity of building such datasets present challenges. Existing datasets have limitations in terms of benchmark coverage, design space enumeration, vendor extensibility, or lack of reproducible and extensible software for dataset construction. Many works also lack user-friendly ways to add more designs, limiting wider adoption of such datasets. In response to these challenges, we introduce HLSFactory, a comprehensive framework designed to facilitate the curation and generation of high-quality HLS design datasets. HLSFactory has three main stages: 1) a design space expansion stage to elaborate single HLS designs into large design spaces using various optimization directives across multiple vendor tools, 2) a design synthesis stage to execute HLS and FPGA tool flows concurrently across designs, and 3) a data aggregation stage for extracting standardized data into packaged datasets for ML usage. This tripartite architecture ensures broad design space coverage via design space expansion and supports multiple vendor tools. Users can contribute to each stage with their own HLS designs and synthesis results and extend the framework itself with custom frontends and tool flows. We also include an initial set of built-in designs from common HLS benchmarks curated open-source HLS designs. We showcase the versatility and multi-functionality of our framework through six case studies: I) Design space sampling; II) Fine-grained parallelism backend speedup; III) Targeting Intel's HLS flow; IV) Adding new auxiliary designs; V) Integrating published HLS data; VI) HLS tool version regression benchmarking. Code at https://github.com/sharc-lab/HLSFactory.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 駆動型多光子量子共振器相互作用

Driven Multiphoton Qubit-Resonator Interactions ( http://arxiv.org/abs/2405.01518v2 )

ライセンス: Link先を確認
Mohammad Ayyash, Xicheng Xu, Sahel Ashhab, M. Mariantoni, (参考訳) 我々は、量子ビット駆動により強化された多光子量子ビット-共振器相互作用の一般理論を開発する。 相互作用は、駆動がn$-光子交叉共振器に近い場合、共振器内でqubit条件演算を生成する。 我々は強い運転体制に特別な注意を払っており、そこでは相互作用はキュービットの服装状態で条件付けられている。 qubit-conditional squeezing (QCS) の結果として$n=2$となる場合を考える。 共振器の変位とその重畳を増幅するためのQCSプロトコルを提案する。 適切に選択された量子ビット測定の結果,直交的に圧縮された状態の重畳を生成するQCSプロトコルが発見された。 共振器における量子ビットの符号化や、共振器の2番目の統計モーメントから推定される量子非劣化の測定を含む、これらの状態に対する量子情報処理の応用について概説する。 次に、任意の所望の結合状態において、実効的な$n$- Photon Rabi Hamiltonianを設計するために、2音駆動を用いる。 言い換えれば、効果的な結合強度は幅広い範囲で調整できるので、これまでのところ到達不可能な新しい状態を実現することができる。 最後に、非対称SQUIDを介して共振器に結合されたトランモン量子ビットに基づく多光子回路QEDの実装を提案する。 上記の2光子プロトコルをホストできる2光子演算系に対して,現実的なパラメータ推定を行う。 数値シミュレーションを用いて、急激な項やデコヒーレンスが存在する場合でも、解析的予測が堅牢であることを示す。

We develop a general theory for multiphoton qubit-resonator interactions enhanced by a qubit drive. The interactions generate qubit-conditional operations in the resonator when the driving is near $n$-photon cross-resonance, namely, the qubit drive is $n$-times the resonator frequency. We pay special attention to the strong driving regime, where the interactions are conditioned on the qubit dressed states. We consider the specific case where $n=2$, which results in qubit-conditional squeezing (QCS). We propose to use the QCS protocol for amplifying resonator displacements and their superpositions. We find the QCS protocol to generate a superposition of orthogonally squeezed states following a properly chosen qubit measurement. We outline quantum information processing applications for these states, including encoding a qubit in a resonator and performing a quantum non-demolition measurement of the qubit inferred from the resonator's second statistical moment. Next, we employ a two-tone drive to engineer an effective $n$-photon Rabi Hamiltonian in any desired coupling regime. In other words, the effective coupling strengths can be tuned over a wide range, thus allowing for the realization of new regimes that have so far been inaccessible. Finally, we propose a multiphoton circuit QED implementation based on a transmon qubit coupled to a resonator via an asymmetric SQUID. We provide realistic parameter estimates for the two-photon operation regime that can host the aforementioned two-photon protocols. We use numerical simulations to show that even in the presence of spurious terms and decoherence, our analytical predictions are robust.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 自動運転車の推進における基礎モデルの役割

Prospective Role of Foundation Models in Advancing Autonomous Vehicles ( http://arxiv.org/abs/2405.02288v2 )

ライセンス: Link先を確認
Jianhua Wu, Bingzhao Gao, Jincheng Gao, Jianhao Yu, Hongqing Chu, Qiankun Yu, Xun Gong, Yi Chang, H. Eric Tseng, Hong Chen, Jie Chen, (参考訳) 人工知能の発達とディープラーニングのブレークスルーにより、GPT、Soraなどの大規模ファンデーションモデル(FM)は、自然言語処理やコンピュータビジョンを含む多くの分野において顕著な成果を上げている。 FMの自動運転への応用は、かなりの可能性を秘めている。 例えば、シーンの理解と推論の強化に貢献できる。 豊かな言語的および視覚的なデータに基づいて事前訓練を行うことで、FMは運転シーンにおける様々な要素を理解し、解釈し、決定と計画のための言語的および行動的指示を与える認知的推論を提供する。 さらに、FMは運転シナリオの理解に基づいてデータを増やして、日常的な運転やデータ収集で遭遇しそうにない長い尾の分布におけるこれらの稀な事象の実行可能なシーンを提供することができる。 この強化により、自律運転システムの精度と信頼性が向上する可能性がある。 FMの応用の可能性の別の証明は、DREAMERシリーズで実証されたWorld Modelsにあり、物理法則や力学を理解する能力を示している。 自己教師型学習のパラダイムの下で大量のデータから学習することで、World Modelは目に見えないが妥当な運転環境を生成し、道路利用者の行動を予測し、運転戦略のオフライントレーニングを促進する。 本稿では,自動運転におけるFMの応用と今後の動向について述べる。 FMの強力な能力を利用することで、自動運転における長い尾の分布に起因する潜在的な問題に対処し、その結果、この領域全体の安全性を向上する。

With the development of artificial intelligence and breakthroughs in deep learning, large-scale Foundation Models (FMs), such as GPT, Sora, etc., have achieved remarkable results in many fields including natural language processing and computer vision. The application of FMs in autonomous driving holds considerable promise. For example, they can contribute to enhancing scene understanding and reasoning. By pre-training on rich linguistic and visual data, FMs can understand and interpret various elements in a driving scene, and provide cognitive reasoning to give linguistic and action instructions for driving decisions and planning. Furthermore, FMs can augment data based on the understanding of driving scenarios to provide feasible scenes of those rare occurrences in the long tail distribution that are unlikely to be encountered during routine driving and data collection. The enhancement can subsequently lead to improvement in the accuracy and reliability of autonomous driving systems. Another testament to the potential of FMs' applications lies in World Models, exemplified by the DREAMER series, which showcases the ability to comprehend physical laws and dynamics. Learning from massive data under the paradigm of self-supervised learning, World Model can generate unseen yet plausible driving environments, facilitating the enhancement in the prediction of road users' behaviors and the off-line training of driving strategies. In this paper, we synthesize the applications and future trends of FMs in autonomous driving. By utilizing the powerful capabilities of FMs, we strive to tackle the potential issues stemming from the long-tail distribution in autonomous driving, consequently advancing overall safety in this domain.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 遅延関連バックプロパゲーションを用いた効率的な深層学習

Efficient Deep Learning with Decorrelated Backpropagation ( http://arxiv.org/abs/2405.02385v2 )

ライセンス: Link先を確認
Sander Dalm, Joshua Offergeld, Nasir Ahmad, Marcel van Gerven, (参考訳) バックプロパゲーションアルゴリズムは、ディープニューラルネットワーク(DNN)をトレーニングするための支配的かつ最も成功した方法である。 同時に、大規模にDNNを訓練することは、計算コストが非常に高く、従って炭素フットプリントが高い。 収束する証拠は、入力のデコレーションがディープラーニングを加速させる可能性があることを示唆している。 しかし、これまでのところ、これは大規模なDNNのトレーニング効率を大幅に向上させるには至っていない。 これは主に、高速で安定したネットワーク全体のデコレーションを強制することによるものである。 ここでは、デコラートなバックプロパゲーションを用いた非常に深いニューラルネットワークのより効率的なトレーニングが実現可能であることを示す。 この目的を達成するために、最小の計算オーバーヘッドを用いてネットワーク全体の入力デコレーションを誘導する新しいアルゴリズムを用いた。 このアルゴリズムと注意深い最適化を組み合わせることで、18層ディープ残差ネットワークのトレーニングにおいて、バックプロパゲーションに比べて2倍以上のスピードアップと高いテスト精度が得られる。 これは、デコレーションが大規模な効率的なディープラーニングにエキサイティングな可能性をもたらすことを示している。

The backpropagation algorithm remains the dominant and most successful method for training deep neural networks (DNNs). At the same time, training DNNs at scale comes at a significant computational cost and therefore a high carbon footprint. Converging evidence suggests that input decorrelation may speed up deep learning. However, to date, this has not yet translated into substantial improvements in training efficiency in large-scale DNNs. This is mainly caused by the challenge of enforcing fast and stable network-wide decorrelation. Here, we show for the first time that much more efficient training of very deep neural networks using decorrelated backpropagation is feasible. To achieve this goal we made use of a novel algorithm which induces network-wide input decorrelation using minimal computational overhead. By combining this algorithm with careful optimizations, we obtain a more than two-fold speed-up and higher test accuracy compared to backpropagation when training a 18-layer deep residual network. This demonstrates that decorrelation provides exciting prospects for efficient deep learning at scale.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# Rasterized Edge Gradients:不連続性を異なる方法で扱う

Rasterized Edge Gradients: Handling Discontinuities Differentiably ( http://arxiv.org/abs/2405.02508v3 )

ライセンス: Link先を確認
Stanislav Pidhorskyi, Tomas Simon, Gabriel Schwartz, He Wen, Yaser Sheikh, Jason Saragih, (参考訳) レンダリングプロセスの勾配を計算することは、コンピュータビジョンやグラフィックスの様々な応用において最重要である。 しかし、これらの勾配の正確な計算は、特に表面表現やラスタライズに基づくレンダリングにおいて、不連続性やレンダリング近似のために困難である。 本稿では,ラスタライズに基づく微分可能レンダラーの可視性不連続性の勾配計算法を提案する。 提案手法は, 厳密に設計された近似戦略により従来の複雑な問題をエレガントに単純化し, 単純で効果的かつ実効性のある解を実現する。 マイクロエッジの概念を導入し,ラスタライズされた画像を,本質的に微分不可能な離散画素ラスタライゼーションと整合した,微分可能で連続的なプロセスの結果として扱えるようにした。 この技術は、レンダリングされた画像の整合性を保ち、フォワードパスに近似やその他の修正をレンダリングする必要をなくし、フィルタリングが禁止されているラスタ化マスク、深さ、および正常な画像に適用できるようにする。 マイクロエッジの利用は、不連続での勾配解釈を単純化し、幾何学的交叉の扱いを可能にし、以前の技術よりも有利である。 本手法は人間の頭部の動的再構成において,カメラ画像とセグメンテーションマスクの効果的処理を実証するものである。

Computing the gradients of a rendering process is paramount for diverse applications in computer vision and graphics. However, accurate computation of these gradients is challenging due to discontinuities and rendering approximations, particularly for surface-based representations and rasterization-based rendering. We present a novel method for computing gradients at visibility discontinuities for rasterization-based differentiable renderers. Our method elegantly simplifies the traditionally complex problem through a carefully designed approximation strategy, allowing for a straightforward, effective, and performant solution. We introduce a novel concept of micro-edges, which allows us to treat the rasterized images as outcomes of a differentiable, continuous process aligned with the inherently non-differentiable, discrete-pixel rasterization. This technique eliminates the necessity for rendering approximations or other modifications to the forward pass, preserving the integrity of the rendered image, which makes it applicable to rasterized masks, depth, and normals images where filtering is prohibitive. Utilizing micro-edges simplifies gradient interpretation at discontinuities and enables handling of geometry intersections, offering an advantage over the prior art. We showcase our method in dynamic human head scene reconstruction, demonstrating effective handling of camera images and segmentation masks.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-17
# 目標学習によるネットワーク干渉による二重ロバスト因果効果推定

Doubly Robust Causal Effect Estimation under Networked Interference via Targeted Learning ( http://arxiv.org/abs/2405.03342v2 )

ライセンス: Link先を確認
Weilin Chen, Ruichu Cai, Zeqin Yang, Jie Qiao, Yuguang Yan, Zijian Li, Zhifeng Hao, (参考訳) ネットワーク干渉による因果効果の推定は重要であるが、難しい問題である。 利用可能なパラメトリック手法はモデル空間で制限されているが、従来の半パラメトリック手法、例えば1つのニュアンス関数に1つだけ適合するニューラルネットワークを利用すると、データ生成プロセスの適切な仮定なしに、ネットワーク干渉下での誤特定問題に遭遇する可能性がある。 本稿では,ニューラルネットワークのトレーニングにターゲット学習技術を適用することにより,ネットワーク干渉下での2重頑健な因果効果推定手法を提案する。 具体的には、対象とする学習技術をネットワーク干渉設定に一般化し、推定器が二重ロバスト性を達成する条件を確立する。 この条件に基づいて、同定された理論条件を目標損失に変換することにより、エンドツーエンドの因果効果推定器を考案する。 さらに,設計した推定器の理論的解析を行い,単一ニュアンスモデルと比較して収束速度が速いことを示した。 半合成データを用いた2つの実世界のネットワークにおける大規模な実験結果から,提案手法の有効性が示された。

Causal effect estimation under networked interference is an important but challenging problem. Available parametric methods are limited in their model space, while previous semiparametric methods, e.g., leveraging neural networks to fit only one single nuisance function, may still encounter misspecification problems under networked interference without appropriate assumptions on the data generation process. To mitigate bias stemming from misspecification, we propose a novel doubly robust causal effect estimator under networked interference, by adapting the targeted learning technique to the training of neural networks. Specifically, we generalize the targeted learning technique into the networked interference setting and establish the condition under which an estimator achieves double robustness. Based on the condition, we devise an end-to-end causal effect estimator by transforming the identified theoretical condition into a targeted loss. Moreover, we provide a theoretical analysis of our designed estimator, revealing a faster convergence rate compared to a single nuisance model. Extensive experimental results on two real-world networks with semisynthetic data demonstrate the effectiveness of our proposed estimators.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-17
# UCT, AlphaGo, Variantsの超指数レジストレーション

Super-Exponential Regret for UCT, AlphaGo and Variants ( http://arxiv.org/abs/2405.04407v2 )

ライセンス: Link先を確認
Laurent Orseau, Remi Munos, (参考訳) We improve the proofs of the lower bounds of Coquelin and Munos (2007) that demonstrate that UCT can have $\exp(\dots\exp(1)\dots)$ regret (with $\Omega(D)$ exp terms) on the $D$-chain environment and that `polynomial' UCT variant have $\exp_2(\exp_2(D - O(\log D)))$ regret on the same environment -- the original proofs contains an oversight for rewards bounded in $[0, 1]$。 また、AlphaGoのMCTSとその子孫(例えば、AlphaZero、Leela Zero)にも証明を適用して、$\exp_2(\exp_2(D - O(\log D)))$ regretを示す。

We improve the proofs of the lower bounds of Coquelin and Munos (2007) that demonstrate that UCT can have $\exp(\dots\exp(1)\dots)$ regret (with $\Omega(D)$ exp terms) on the $D$-chain environment, and that a `polynomial' UCT variant has $\exp_2(\exp_2(D - O(\log D)))$ regret on the same environment -- the original proofs contain an oversight for rewards bounded in $[0, 1]$, which we fix in the present draft. We also adapt the proofs to AlphaGo's MCTS and its descendants (e.g., AlphaZero, Leela Zero) to also show $\exp_2(\exp_2(D - O(\log D)))$ regret.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-17
# マルチスケールオーバーサンプリンググラフニューラルネットワークを用いた不均衡グラフ分類

Imbalanced Graph Classification with Multi-scale Oversampling Graph Neural Networks ( http://arxiv.org/abs/2405.04903v2 )

ライセンス: Link先を確認
Rongrong Ma, Guansong Pang, Ling Chen, (参考訳) 不均衡グラフ分類における大きな課題の1つは、表現不足(マイノリティ)クラスでグラフの表現的表現を学ぶことである。 オーバーサンプリングや非バランス学習損失関数といった既存の非バランス学習手法は、グラフ表現学習モデルがこの課題に対処できるように採用することができる。 しかしながら、これらの手法はグラフ表現を直接操作し、グラフとその相互作用内のリッチな識別情報を無視することが多い。 この問題に対処するために,複数スケールのグラフ(サブグラフ,グラフ,ペアワイズグラフ)から得られるグラフ内およびグラフ間セマンティクスに基づいて,表現力に富んだマイノリティグラフ表現を学習する,新しいマルチスケールオーバーサンプリンググラフニューラルネットワーク(MOSGNN)を導入する。 サブグラフレベル、グラフレベル、ペアワイズグラフの学習タスクを共同で最適化し、マイノリティグラフ内とマイノリティグラフ間の識別情報を学習する。 16個の不均衡グラフデータセットの大規模な実験により、MOSGNNが示される i)5つの最先端モデルを著しく上回り、 二 異なる先進的不均衡学習損失関数を容易に接続でき、分類性能が著しく向上した総合的枠組みを提供すること。

One main challenge in imbalanced graph classification is to learn expressive representations of the graphs in under-represented (minority) classes. Existing generic imbalanced learning methods, such as oversampling and imbalanced learning loss functions, can be adopted for enabling graph representation learning models to cope with this challenge. However, these methods often directly operate on the graph representations, ignoring rich discriminative information within the graphs and their interactions. To tackle this issue, we introduce a novel multi-scale oversampling graph neural network (MOSGNN) that learns expressive minority graph representations based on intra- and inter-graph semantics resulting from oversampled graphs at multiple scales - subgraph, graph, and pairwise graphs. It achieves this by jointly optimizing subgraph-level, graph-level, and pairwise-graph learning tasks to learn the discriminative information embedded within and between the minority graphs. Extensive experiments on 16 imbalanced graph datasets show that MOSGNN i) significantly outperforms five state-of-the-art models, and ii) offers a generic framework, in which different advanced imbalanced learning loss functions can be easily plugged in and obtain significantly improved classification performance.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-17
# 雑音からの透かし(PWFN):集中歪みに対する頑健な透かしモデルの改良

Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions ( http://arxiv.org/abs/2405.05170v2 )

ライセンス: Link先を確認
Sijing Xie, Chengxin Zhao, Nan Sun, Wei Li, Hefei Ling, (参考訳) デジタル透かし(Digital watermarking)は、人間の目には検出不可能な方法で画像を変更することによって秘密情報を埋め込む方法である。 モデルの堅牢性を高めるため、多くのディープラーニングベースの透かし手法では、ノイズ層に異なるノイズを加えることでエンコーダ-ノイズデコーダアーキテクチャを使用する。 そして、デコーダは歪んだ画像から透かし情報を抽出する。 しかし、この手法は弱いノイズアタックにしか耐えられない。 より強い雑音に対するデコーダのロバスト性を改善するために,ノイズ層とデコーダとの間にデノーズモジュールを導入することを提案する。 このモジュールは、ノイズを低減し、歪みによって失われた情報のいくつかを回復することを目的としている。 さらに,透かし情報とチャネル次元を融合するSEモジュールを導入し,エンコーダの効率を向上する。 実験結果から,提案手法は既存モデルに匹敵し,ノイズ強度の異なる最先端技術よりも優れていることがわかった。 さらに, アブレーション実験により, 提案したモジュールの優位性を示した。

Digital watermarking is the process of embedding secret information by altering images in an undetectable way to the human eye. To increase the robustness of the model, many deep learning-based watermarking methods use the encoder-noise-decoder architecture by adding different noises to the noise layer. The decoder then extracts the watermarked information from the distorted image. However, this method can only resist weak noise attacks. To improve the robustness of the decoder against stronger noise, this paper proposes to introduce a denoise module between the noise layer and the decoder. The module aims to reduce noise and recover some of the information lost caused by distortion. Additionally, the paper introduces the SE module to fuse the watermarking information pixel-wise and channel dimensions-wise, improving the encoder's efficiency. Experimental results show that our proposed method is comparable to existing models and outperforms state-of-the-art under different noise intensities. In addition, ablation experiments show the superiority of our proposed module.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-17
# 擬似異常発生のためのオートエンコーダの弱さの爆発

Exploiting Autoencoder's Weakness to Generate Pseudo Anomalies ( http://arxiv.org/abs/2405.05886v2 )

ライセンス: Link先を確認
Marcella Astrid, Muhammad Zaigham Zaheer, Djamila Aouada, Seung-Ik Lee, (参考訳) 異常事象の稀な発生により、異常検出の典型的なアプローチは、通常のデータのみを用いてオートエンコーダ(AE)を訓練し、通常のトレーニングデータのパターンや表現を学ぶことである。 試験時には、トレーニングされたAEは正常に再構成されるが、異常なデータを十分に再構成することが期待されている。 しかし、予想に反して、異常なデータはよく再構成される。 正規データと異常データの間で再構成品質をさらに分離するために,上記のAEの弱点を利用して学習適応雑音から擬似異常を生成することを提案する。 生成したノイズを正規データに追加して擬似異常を生成する。 Ped2, Avenue, ShanghaiTech, CIFAR-10, KDDCUPデータセットの大規模実験により, 異常検出におけるAEsの識別能力の向上における我々のアプローチの有効性と汎用性を示した。

Due to the rare occurrence of anomalous events, a typical approach to anomaly detection is to train an autoencoder (AE) with normal data only so that it learns the patterns or representations of the normal training data. At test time, the trained AE is expected to well reconstruct normal but to poorly reconstruct anomalous data. However, contrary to the expectation, anomalous data is often well reconstructed as well. In order to further separate the reconstruction quality between normal and anomalous data, we propose creating pseudo anomalies from learned adaptive noise by exploiting the aforementioned weakness of AE, i.e., reconstructing anomalies too well. The generated noise is added to the normal data to create pseudo anomalies. Extensive experiments on Ped2, Avenue, ShanghaiTech, CIFAR-10, and KDDCUP datasets demonstrate the effectiveness and generic applicability of our approach in improving the discriminative capability of AEs for anomaly detection.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-17
# 安全なAIの保証に向けて:ロバストで信頼性の高いAIシステムを保証するフレームワーク

Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems ( http://arxiv.org/abs/2405.06624v2 )

ライセンス: Link先を確認
David "davidad" Dalrymple, Joar Skalse, Yoshua Bengio, Stuart Russell, Max Tegmark, Sanjit Seshia, Steve Omohundro, Christian Szegedy, Ben Goldhaber, Nora Ammann, Alessandro Abate, Joe Halpern, Clark Barrett, Ding Zhao, Tan Zhi-Xuan, Jeannette Wing, Joshua Tenenbaum, (参考訳) AIシステムは、特に高度な自律性と汎用性を持つAIシステムや、安全クリティカルなコンテキストで使用されるシステムにとって、安全で堅牢に有害な行動や危険な行動を避けることが重要な課題である。 本稿では、安全保証(GS)AIとして言及する、AI安全性に対するアプローチのファミリーを紹介し、定義する。 これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。 これは、世界モデル(AIシステムが外界にどう影響するかを数学的に記述する)、安全仕様(どのような効果が受け入れられるかを数学的に記述する)、検証(AIが世界モデルに対して安全仕様を満足する監査可能な証明証明書を提供する)の3つのコアコンポーネントの相互作用によって達成される。 これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。 また、AIの安全性に対するこのアプローチの必要性や、主要な代替アプローチの不十分さについても議論しています。

Ensuring that AI systems reliably and robustly avoid harmful or dangerous behaviours is a crucial challenge, especially for AI systems with a high degree of autonomy and general intelligence, or systems used in safety-critical contexts. In this paper, we will introduce and define a family of approaches to AI safety, which we will refer to as guaranteed safe (GS) AI. The core feature of these approaches is that they aim to produce AI systems which are equipped with high-assurance quantitative safety guarantees. This is achieved by the interplay of three core components: a world model (which provides a mathematical description of how the AI system affects the outside world), a safety specification (which is a mathematical description of what effects are acceptable), and a verifier (which provides an auditable proof certificate that the AI satisfies the safety specification relative to the world model). We outline a number of approaches for creating each of these three core components, describe the main technical challenges, and suggest a number of potential solutions to them. We also argue for the necessity of this approach to AI safety, and for the inadequacy of the main alternative approaches.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-17
# インフラストラクチャエンジニアリング: 研究エコシステムにおける過小評価された役割

Infrastructure Engineering: A Still Missing, Undervalued Role in the Research Ecosystem ( http://arxiv.org/abs/2405.10473v1 )

ライセンス: Link先を確認
Vanessa Sochat, (参考訳) 研究はますますソフトウェアに頼り、バイオインフォマティクス、高性能コンピューティング、物理学、機械学習、人工知能の原動力となっている。 研究対象となるソフトウェアや関連資産を直接的に開発するソフトウェア技術者であるリサーチソフトウェアエンジニアのために、かなりの進歩があったが、研究インフラストラクチャとイノベーション、すなわち、コンパイラと互換性ツールの開発、オーケストレーションとスケジューリングインフラストラクチャ、開発者環境、コンテナテクノロジ、ワークフローマネージャといった、研究インフラストラクチャとイノベーションの背後にある労働力にはほとんど関心が向けられていない。 クラウドコンピューティングのさまざまなモデルに向けて経済的なインセンティブが進み、両方の世界のベストを表す新しいパラダイムを開発するためには革新が必要であるため、「収束コンピューティング」と呼ばれる取り組みは、そのような役割の必要性は理想的ではなく、科学の継続的な成功に不可欠である。 非伝統的な職種に散在するスタッフは、この分野のいくつかの側面で作業する時間を見出しているが、それを支援するための大きな労働力の欠如とインセンティブが科学界を後退させてきた。 この記事では、この欠落したレイヤの重要性を強調し、インフラストラクチャエンジニアの役割の欠如が、相互運用性、ポータビリティ、そして科学の再現性において、いかに非効率になったかを例示します。 我々は、これらの技術に対して、個人が明示的に作業するためのリソースを割り当て、提供し、維持できないことは、我々の科学コミュニティの継続的な成功に最適でない未来をもたらす可能性があることを示唆する。

Research has become increasingly reliant on software, serving as the driving force behind bioinformatics, high performance computing, physics, machine learning and artificial intelligence, to name a few. While substantial progress has been made in advocating for the research software engineer, a kind of software engineer that typically works directly on software and associated assets that go into research, little attention has been placed on the workforce behind research infrastructure and innovation, namely compilers and compatibility tool development, orchestration and scheduling infrastructure, developer environments, container technologies, and workflow managers. As economic incentives are moving toward different models of cloud computing and innovating is required to develop new paradigms that represent the best of both worlds, an effort called "converged computing," the need for such a role is not just ideal, but essential for the continued success of science. While scattered staff in non-traditional roles have found time to work on some facets of this space, the lack of a larger workforce and incentive to support it has led to the scientific community falling behind. In this article we will highlight the importance of this missing layer, providing examples of how a missing role of infrastructure engineer has led to inefficiencies in the interoperability, portability, and reproducibility of science. We suggest that an inability to allocate, provide resources for, and sustain individuals to work explicitly on these technologies could lead to possible futures that are sub-optimal for the continued success of our scientific communities.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-17
# ChatGPTの成功を再考する: 自己回帰型LLMのプロンプトによるユーザビリティと認知行動

Rethinking ChatGPT's Success: Usability and Cognitive Behaviors Enabled by Auto-regressive LLMs' Prompting ( http://arxiv.org/abs/2405.10474v1 )

ライセンス: Link先を確認
Xinzhe Li, Ming Liu, (参考訳) 過去10年間で、大規模言語モデル(LLM)の幅広いトレーニングとデプロイメント戦略が出現した。 これらのうち、自己回帰LDM(AR-LLM)の促進パラダイムは、人工知能(AI)の大きな飛躍を触媒している。 本稿では, ユーザ指向チャネル(モダリティ変換手法)として, 自由形式のモダリティ(入力と出力の形式)と自由形式の文脈を活用することの重要性を強調する。 具体的には,2種類のLCMと6つのタスク固有のチャネルの配置におけるモード構造を解析する。 ユーザの視点からは、AR-LLMの促進パラダイムの優れた性質を強調し、ユーザビリティを評価するためにタスクカスタマイズ性、透明性、複雑さの分析指標を導入し、適用する。 さらに,LLMにおける多様な認知行動の刺激について,自由形式テキストと言語文脈の活用を通して検討し,そのような行動の人間の言語表現を反映した。 そして、この自由な形態のモダリティとチャネルを用いて、AR-LLMがいかに人間の様態を模倣するかを明らかにするために、4つの一般的な認知行動について詳述する。 最後に、自律エージェントとマルチエージェントシステムの両方において、LLMデプロイメントを改善する可能性は、認知行動の概念と原則によって識別される。

Over the last decade, a wide range of training and deployment strategies for Large Language Models (LLMs) have emerged. Among these, the prompting paradigms of Auto-regressive LLMs (AR-LLMs) have catalyzed a significant surge in Artificial Intelligence (AI). This paper aims to emphasize the significance of utilizing free-form modalities (forms of input and output) and verbal free-form contexts as user-directed channels (methods for transforming modalities) for downstream deployment. Specifically, we analyze the structure of modalities within both two types of LLMs and six task-specific channels during deployment. From the perspective of users, our analysis introduces and applies the analytical metrics of task customizability, transparency, and complexity to gauge their usability, highlighting the superior nature of AR-LLMs' prompting paradigms. Moreover, we examine the stimulation of diverse cognitive behaviors in LLMs through the adoption of free-form text and verbal contexts, mirroring human linguistic expressions of such behaviors. We then detail four common cognitive behaviors to underscore how AR-LLMs' prompting successfully imitate human-like behaviors using this free-form modality and channel. Lastly, the potential for improving LLM deployment, both as autonomous agents and within multi-agent systems, is identified via cognitive behavior concepts and principles.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# パーソナライズされたデジタル学習環境の解析・モデル化・設計

Analysis, Modeling and Design of Personalized Digital Learning Environment ( http://arxiv.org/abs/2405.10476v1 )

ライセンス: Link先を確認
Sanjaya Khanal, Shiva Raj Pokhrel, (参考訳) 本研究は、革新的なプライベート・ラーニング・インテリジェンス(PLI)フレームワークによって強化された新しいデジタル・ラーニング・環境(DLE)を分析し、モデル化し、開発する。 提案したPLIフレームワークは、フェデレーション機械学習(FL)技術を利用して、個人学習者のためのパーソナライズされた学習モデルを自律的に構築し、継続的に洗練し、堅牢なプライバシ保護を保証する。 我々のアプローチは、DLE能力の進歩において重要なものであり、学習者がパーソナライズされたリアルタイム学習体験に積極的に参加できるようにする。 DLEへのPLIの統合は、パーソナライズされた教育/学習のための教育設計と開発要求を合理化する。 我々は、FLを学習システムにシームレスに統合するための基盤を確立する方法を模索し、デジタル環境におけるパーソナライズされた学習への変革的なアプローチを提供する。 実装の詳細とコードは公開されています。

This research analyzes, models and develops a novel Digital Learning Environment (DLE) fortified by the innovative Private Learning Intelligence (PLI) framework. The proposed PLI framework leverages federated machine learning (FL) techniques to autonomously construct and continuously refine personalized learning models for individual learners, ensuring robust privacy protection. Our approach is pivotal in advancing DLE capabilities, empowering learners to actively participate in personalized real-time learning experiences. The integration of PLI within a DLE also streamlines instructional design and development demands for personalized teaching/learning. We seek ways to establish a foundation for the seamless integration of FL into learning systems, offering a transformative approach to personalized learning in digital environments. Our implementation details and code are made public.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# リーンアテンション - トランスフォーマーのデコード生成のためのハードウェア対応のスケーラブルアテンションメカニズム

Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers ( http://arxiv.org/abs/2405.10480v1 )

ライセンス: Link先を確認
Rya Sanovar, Srikant Bharadwaj, Renee St. Amant, Victor Rühle, Saravan Rajmohan, (参考訳) トランスフォーマーベースのモデルは、自然言語処理、自然言語生成、画像生成において最も広く使われているアーキテクチャの1つとして登場した。 最先端モデルのサイズは、何十億ものパラメータに着実に達している。 これらの巨大なモデルは、メモリが空腹で、GPUのような最先端のAIアクセラレータでも大きな推論レイテンシが生じる。 具体的には、注意操作の時間と記憶の複雑さは、合計コンテキスト長、すなわちプロンプトと出力トークンの2次である。 このようにして、キー値テンソルキャッシュやFlashAttention計算といったいくつかの最適化が提案され、そのような大きなモデルに依存するアプリケーションの低レイテンシ要求を実現する。 しかし、これらの手法は推論中に異なる位相の計算学的に異なる性質に適合しない。 そこで本研究では,デコーダのみのトランスフォーマーモデルのトークン生成フェーズ(デコードフェーズ)に対して,自己アテンションをスケーラブルに計算する手法であるLeanAttentionを提案する。 LeanAttentionは、デコードフェーズの実行フローを再設計することで、長いコンテキスト長の挑戦的なケースに対するアテンションメカニズムの実装をスケール可能にする。 我々は,オンラインソフトマックスの連想特性を縮小演算として扱うことができ,これらの大きなコンテキスト長に対する注意計算を並列化することができることを確認した。 これにより,FlashAttention-2よりも平均2.6倍,コンテキスト長が最大8.33倍に向上する。

Transformer-based models have emerged as one of the most widely used architectures for natural language processing, natural language generation, and image generation. The size of the state-of-the-art models has increased steadily reaching billions of parameters. These huge models are memory hungry and incur significant inference latency even on cutting edge AI-accelerators, such as GPUs. Specifically, the time and memory complexity of the attention operation is quadratic in terms of the total context length, i.e., prompt and output tokens. Thus, several optimizations such as key-value tensor caching and FlashAttention computation have been proposed to deliver the low latency demands of applications relying on such large models. However, these techniques do not cater to the computationally distinct nature of different phases during inference. To that end, we propose LeanAttention, a scalable technique of computing self-attention for the token-generation phase (decode-phase) of decoder-only transformer models. LeanAttention enables scaling the attention mechanism implementation for the challenging case of long context lengths by re-designing the execution flow for the decode-phase. We identify that the associative property of online softmax can be treated as a reduction operation thus allowing us to parallelize the attention computation over these large context lengths. We extend the "stream-K" style reduction of tiled calculation to self-attention to enable parallel computation resulting in an average of 2.6x attention execution speedup over FlashAttention-2 and up to 8.33x speedup for 512k context lengths.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# 信頼グラフニューラルネットワークによるマルチエビデンスに基づくFact Verification

Multi-Evidence based Fact Verification via A Confidential Graph Neural Network ( http://arxiv.org/abs/2405.10481v1 )

ライセンス: Link先を確認
Yuqing Lan, Zhenghao Liu, Yu Gu, Xiaoyuan Yi, Xiaohua Li, Liner Yang, Ge Yu, (参考訳) 事実確認タスクは、真正なコーパスに従ってテキスト内容の完全性を特定することを目的としている。 既存の事実検証モデルは通常、クレームエビデンスペアをノードとみなし、それらをエッジで接続する完全に接続された推論グラフを構築する。 彼らはノードのセマンティクスを伝播するためにグラフを使用している。 それでも、ノイズの多いノードは通常、他のノードのセマンティック表現を誤解させ、ノイズ信号を増幅する推論グラフのエッジを介して意味を伝播する。 ノイズの多い意味情報の伝播を軽減するために,ノードをモデル化するためのノードマスキング機構を提案する信頼グラフ注意ネットワーク(CO-GAT)を提案する。 特に、CO-GATは、クレームとエビデンス片の関係を推定してノード信頼スコアを算出する。 そして、ノードマスキング機構は、ノード信頼スコアを使用して、バニラノードから他のグラフノードへ流れるノイズ情報を制御する。 CO-GATは、FEVERデータセット上で73.59%のFEVERスコアを達成し、科学固有の領域に有効性を広げることで、一般化能力を示す。

Fact verification tasks aim to identify the integrity of textual contents according to the truthful corpus. Existing fact verification models usually build a fully connected reasoning graph, which regards claim-evidence pairs as nodes and connects them with edges. They employ the graph to propagate the semantics of the nodes. Nevertheless, the noisy nodes usually propagate their semantics via the edges of the reasoning graph, which misleads the semantic representations of other nodes and amplifies the noise signals. To mitigate the propagation of noisy semantic information, we introduce a Confidential Graph Attention Network (CO-GAT), which proposes a node masking mechanism for modeling the nodes. Specifically, CO-GAT calculates the node confidence score by estimating the relevance between the claim and evidence pieces. Then, the node masking mechanism uses the node confidence scores to control the noise information flow from the vanilla node to the other graph nodes. CO-GAT achieves a 73.59% FEVER score on the FEVER dataset and shows the generalization ability by broadening the effectiveness to the science-specific domain.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# CNER: Named-Entity Relations のツール分類器

CNER: A tool Classifier of Named-Entity Relationships ( http://arxiv.org/abs/2405.10485v1 )

ライセンス: Link先を確認
Jefferson A. Peña Torres, Raúl E. Gutiérrez De Piñerez, (参考訳) スペイン語における名前付きエンティティ間の意味的関係を抽出する,有能なツールのアンサンブルであるCNERを紹介する。 コンテナベースのアーキテクチャに基づいて構築されたCNERは、さまざまな名前付きエンティティ認識と関係抽出ツールをユーザフレンドリなインターフェースに統合する。 自然言語処理(NLP)グループ(Universidad del Valle)のプロトタイプとして開発されたCNERは、スペインにおける多様なNLPタスクに機械学習技術が効果的に対処する方法について、実践的な教育資源として機能する。 我々の予備的な結果は、特にスペイン語の文脈において、NLPツールの理解と開発を進める上で、CNERの有望な可能性を明らかにした。

We introduce CNER, an ensemble of capable tools for extraction of semantic relationships between named entities in Spanish language. Built upon a container-based architecture, CNER integrates different Named entity recognition and relation extraction tools with a user-friendly interface that allows users to input free text or files effortlessly, facilitating streamlined analysis. Developed as a prototype version for the Natural Language Processing (NLP) Group at Universidad del Valle, CNER serves as a practical educational resource, illustrating how machine learning techniques can effectively tackle diverse NLP tasks in Spanish. Our preliminary results reveal the promising potential of CNER in advancing the understanding and development of NLP tools, particularly within Spanish-language contexts.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# MixCut:表情認識のためのデータ拡張手法

MixCut:A Data Augmentation Method for Facial Expression Recognition ( http://arxiv.org/abs/2405.10489v1 )

ライセンス: Link先を確認
Jiaxiang Yu, Yiyang Liu, Ruiyang Fan, Guobing Sun, (参考訳) 表情認識タスクでは、少量のトレーニングサンプルのため、研究者は常に表現分類の精度が低い。 このような問題を解決するために,MixCutという新しいデータ拡張手法を提案する。 本手法では,まず2つの元のトレーニングサンプルをランダムな比で画素レベルで補間し,新しいサンプルを生成する。 そして、新しいサンプルのランダムな正方形領域で画素除去を行い、最終的なトレーニングサンプルを生成する。 我々はFer2013PlusとRAF-DBでMixCut法を評価した。 MixCutでは,Fer2013Plusの8ラベル分類で85.63%,RAF-DBの7ラベル分類で87.88%の精度を達成し,顔画像認識の分類精度を効果的に向上させた。 一方、Fer2013Plusでは、MixCutは、他の3つのデータ拡張メソッド(CutOut、Mixup、CutMix)と比較して、+0.59%、+0.36%、+0.39%のパフォーマンス改善を達成した。 MixCutはRAF-DBの分類精度を+0.22%、+0.65%、+0.5%改善している。

In the facial expression recognition task, researchers always get low accuracy of expression classification due to a small amount of training samples. In order to solve this kind of problem, we proposes a new data augmentation method named MixCut. In this method, we firstly interpolate the two original training samples at the pixel level in a random ratio to generate new samples. Then, pixel removal is performed in random square regions on the new samples to generate the final training samples. We evaluated the MixCut method on Fer2013Plus and RAF-DB. With MixCut, we achieved 85.63% accuracy in eight-label classification on Fer2013Plus and 87.88% accuracy in seven-label classification on RAF-DB, effectively improving the classification accuracy of facial expression image recognition. Meanwhile, on Fer2013Plus, MixCut achieved performance improvements of +0.59%, +0.36%, and +0.39% compared to the other three data augmentation methods: CutOut, Mixup, and CutMix, respectively. MixCut improves classification accuracy on RAF-DB by +0.22%, +0.65%, and +0.5% over these three data augmentation methods.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# インテリジェントマーケティングシステムのための適応的ヒューリスティックスを用いたニューラル最適化

Neural Optimization with Adaptive Heuristics for Intelligent Marketing System ( http://arxiv.org/abs/2405.10490v1 )

ライセンス: Link先を確認
Changshuai Wei, Benjamin Zelditch, Joyce Chen, Andre Assuncao Silva T Ribeiro, Jingyi Kenneth Tay, Borja Ocejo Elizondo, Keerthi Selvaraj, Aman Gupta, Licurgo Benemann De Almeida, (参考訳) 計算マーケティングは今日のデジタル世界でますます重要になってきており、膨大な異種データ、マルチチャネル顧客旅行、限られたマーケティング予算といった課題に直面している。 本稿では,AIシステムのマーケティングのための一般的なフレームワークである,適応ヒューリスティックス(NOAH)フレームワークを提案する。 NOAHは2B(to-business)と2C(to-consumer)の両方の製品と、所有チャネルと有償チャネルを考慮に入れた、マーケティング最適化のための最初の一般的なフレームワークである。 本稿では,NOAHフレームワークの重要なモジュールとして,予測,最適化,適応的ヒューリスティックスを挙げ,入札やコンテンツ最適化の例を示す。 その後、LinkedInのEメールマーケティングシステムへのNOAHの適用の成功について詳述し、レガシーランキングシステムに対する大きな勝利を示している。 さらに私たちは,特にその上で,広く有用な詳細と洞察を共有しています。 (i) ライフタイム値で遅延フィードバックに対処すること。 (II)ランダム化による大規模線形プログラミング 三 オーディエンス拡大による検索の改善 四 目標試験における信号希釈の低減及び (v)統計検査におけるゼロインフレートヘビーテールメトリクスの扱い。

Computational marketing has become increasingly important in today's digital world, facing challenges such as massive heterogeneous data, multi-channel customer journeys, and limited marketing budgets. In this paper, we propose a general framework for marketing AI systems, the Neural Optimization with Adaptive Heuristics (NOAH) framework. NOAH is the first general framework for marketing optimization that considers both to-business (2B) and to-consumer (2C) products, as well as both owned and paid channels. We describe key modules of the NOAH framework, including prediction, optimization, and adaptive heuristics, providing examples for bidding and content optimization. We then detail the successful application of NOAH to LinkedIn's email marketing system, showcasing significant wins over the legacy ranking system. Additionally, we share details and insights that are broadly useful, particularly on: (i) addressing delayed feedback with lifetime value, (ii) performing large-scale linear programming with randomization, (iii) improving retrieval with audience expansion, (iv) reducing signal dilution in targeting tests, and (v) handling zero-inflated heavy-tail metrics in statistical testing.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# 言語処理に基づくニュース自動生成とFact-Checkingシステム

Automatic News Generation and Fact-Checking System Based on Language Processing ( http://arxiv.org/abs/2405.10492v1 )

ライセンス: Link先を確認
Xirui Peng, Qiming Xu, Zheng Feng, Haopeng Zhao, Lianghao Tan, Yan Zhou, Zecheng Zhang, Chenwei Gong, Yingqiao Zheng, (参考訳) 本稿では,ニュースコンテンツの信頼性と信頼性を確保しつつ,ニュース制作の効率性と品質を向上させることを目的とした,言語処理に基づく自動ニュース生成と事実確認システムについて検討する。 自然言語処理(NLP)とディープラーニング技術の急速な発展により、自動ニュース生成システムは、大量のデータから重要な情報を抽出し、十分に構造化された流動的なニュース記事を生成することができる。 一方、ファクトチェック技術を統合することにより、偽ニュースの拡散を効果的に防止し、ニュースの正確性と信頼性を向上させることができる。 本研究は,テキスト生成や情報抽出,知識グラフの適用など,自動ニュース生成やファクトチェックに関わる重要な技術について詳述し,これらの技術の有効性を実験を通じて検証する。 さらに,自動ニュース生成システムとファクトチェックシステムの今後の開発方向性について論じ,さらなる統合と技術革新の重要性を強調した。 これらのシステムは, 継続的な技術最適化と実用化により, 将来ニュース産業においてますます重要な役割を担い, より効率的で信頼性の高いニュースサービスを提供していくことが示唆された。

This paper explores an automatic news generation and fact-checking system based on language processing, aimed at enhancing the efficiency and quality of news production while ensuring the authenticity and reliability of the news content. With the rapid development of Natural Language Processing (NLP) and deep learning technologies, automatic news generation systems are capable of extracting key information from massive data and generating well-structured, fluent news articles. Meanwhile, by integrating fact-checking technology, the system can effectively prevent the spread of false news and improve the accuracy and credibility of news. This study details the key technologies involved in automatic news generation and factchecking, including text generation, information extraction, and the application of knowledge graphs, and validates the effectiveness of these technologies through experiments. Additionally, the paper discusses the future development directions of automatic news generation and fact-checking systems, emphasizing the importance of further integration and innovation of technologies. The results show that with continuous technological optimization and practical application, these systems will play an increasingly important role in the future news industry, providing more efficient and reliable news services.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# SMP Challenge:ソーシャルメディア予測チャレンジの概要と分析

SMP Challenge: An Overview and Analysis of Social Media Prediction Challenge ( http://arxiv.org/abs/2405.10497v1 )

ライセンス: Link先を確認
Bo Wu, Peiye Liu, Wen-Huang Cheng, Bei Liu, Zhaoyang Zeng, Jia Wang, Qiushi Huang, Jiebo Luo, (参考訳) ソーシャルメディアの人気予測(SMPP)は、ソーシャルメディアプラットフォームで利用可能な膨大なマルチモーダルデータを活用することで、オンライン投稿の今後の人気値を自動予測する重要なタスクである。 ソーシャルメディアの人気を調査・調査することは、様々なオンライン応用の中心となり、包括的分析、マルチモーダル理解、正確な予測の新しい方法が必要である。 SMPチャレンジ(SMP Challenge)は、この地域の学術調査を刺激する年次研究活動である。 本稿では,課題,データ,研究の進展について要約する。 予測モデルの評価とベンチマークのための重要なリソースとして、約70万のユーザが作成した約50万の投稿を含む大規模なSMPDベンチマークをリリースしました。 研究進捗分析は、近年のソリューションとトレンドの全体的分析を提供する。 SMP Challengeのウェブサイト(www.smp-challenge.com)は最新の情報とニュースを提供している。

Social Media Popularity Prediction (SMPP) is a crucial task that involves automatically predicting future popularity values of online posts, leveraging vast amounts of multimodal data available on social media platforms. Studying and investigating social media popularity becomes central to various online applications and requires novel methods of comprehensive analysis, multimodal comprehension, and accurate prediction. SMP Challenge is an annual research activity that has spurred academic exploration in this area. This paper summarizes the challenging task, data, and research progress. As a critical resource for evaluating and benchmarking predictive models, we have released a large-scale SMPD benchmark encompassing approximately half a million posts authored by around 70K users. The research progress analysis provides an overall analysis of the solutions and trends in recent years. The SMP Challenge website (www.smp-challenge.com) provides the latest information and news.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# 高速イオン鎖輸送による時間多重イオン-光子量子界面

Temporally multiplexed ion-photon quantum interface via fast ion-chain transport ( http://arxiv.org/abs/2405.10501v1 )

ライセンス: Link先を確認
Bingran You, Qiming Wu, David Miron, Wenjun Ke, Inder Monga, Erhan Saglamyurek, Hartmut Haeffner, (参考訳) 光子と物質ベースの量子ビット間の高速リモート絡み合いは、分散量子情報処理に不可欠である。 既存の長距離量子ネットワークアプローチの控えめな絡み合い率を高めるための重要な技術は多重化である。 ここでは、74$\mathrm{\mu m}$ 86$\mathrm{\mu s}$ の9個のカルシウムイオンの鎖を高速に輸送することで、時間的に多重化されたイオン-光子界面を示す。 多重化モード間の無視可能なクロストークを示す平均値$g^{(2)}(0)$ = 0.060(13)で2階相関関数を測定することにより、多重化光子の非古典性を検証する。 さらに、輸送後のイオン結晶の運動度自由度を特徴付け、質量中心モードに対して$\bar{n}_\alpha\approx 110$ にコヒーレントに励起されていることを発見した。 我々のプリンシプル実装は、イオンを閉じ込めた大規模量子ネットワークの道を開いたが、克服すべき課題がいくつか浮かび上がっている。

High-rate remote entanglement between photon and matter-based qubits is essential for distributed quantum information processing. A key technique to increase the modest entangling rates of existing long-distance quantum networking approaches is multiplexing. Here, we demonstrate a temporally multiplexed ion-photon interface via rapid transport of a chain of nine calcium ions across 74 $\mathrm{\mu m}$ within 86 $\mathrm{\mu s}$. The non-classical nature of the multiplexed photons is verified by measuring the second-order correlation function with an average value of $g^{(2)}(0)$ = 0.060(13), indicating negligible crosstalk between the multiplexed modes. In addition, we characterize the motional degree-of-freedom of the ion crystal after transport and find that it is coherently excited to as much as $\bar{n}_\alpha\approx 110$ for the center-of-mass mode. Our proof-of-principle implementation paves the way for large-scale quantum networking with trapped ions, but highlights some challenges that must be overcome.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# 都市ストリートビュー画像のためのディープニューラルネットワークのマルチスケールセマンティック事前特徴

Multi-scale Semantic Prior Features Guided Deep Neural Network for Urban Street-view Image ( http://arxiv.org/abs/2405.10504v1 )

ライセンス: Link先を確認
Jianshun Zeng, Wang Li, Yanjie Lv, Shuai Gao, YuChu Qin, (参考訳) ストリートビュー画像は重要なモバイルマッピングデータソースとして広く利用されている。 ストリートビュー画像の塗装は、プライバシー保護だけでなく、都市環境マッピングにも重要なステップである。 本稿では、移動物体(歩行者、車両など)を使わずに静的なストリートビュー画像を生成する、ストリートビュー画像のインペイントのためのマルチスケールセマンティック先行特徴画像インペイントネットワーク(MFN)であるDeep Neural Network(DNN)を提案する。 グローバルな文脈理解を強化するために、大規模な事前学習モデルからリッチなセマンティック・プレプロンプトを学習するためにセマンティック・プレプロンプトが導入された。 複数のセマンティックピラミッド集合(SPA)モジュールを積み重ねてプロンプトを設計し、幅広い視覚的特徴パターンを抽出する。 デコーダ付きセマンティックエンハンスドイメージジェネレータが提案され,各スケールに新たなLPTモジュールが組み込まれている。 各デコーダブロックに対して、長期的依存関係をキャプチャするためのアテンション転送機構を適用し、画像特徴とセマンティック先行特徴を融合させて、可視構造を適応的に復元する。 また、ホール内の幻影物の発生を防止するために、背景認識データ処理方式を採用する。 Apolloscapes と Cityscapes のデータセットの実験では、最先端の手法よりも優れたパフォーマンスを示しており、MAE と LPIPS はそれぞれ 9.5% と 41.07% の改善を示している。 また, 複数グループを対象とした視覚的比較調査を行い, 性能評価を行った。その結果, 提案したMFNは, プライバシ保護のための有望なソリューションであり, 街路ビュー画像を用いた都市アプリケーションのためのより信頼性の高いシーンを生成することが示唆された。

Street-view image has been widely applied as a crucial mobile mapping data source. The inpainting of street-view images is a critical step for street-view image processing, not only for the privacy protection, but also for the urban environment mapping applications. This paper presents a novel Deep Neural Network (DNN), multi-scale semantic prior Feature guided image inpainting Network (MFN) for inpainting street-view images, which generate static street-view images without moving objects (e.g., pedestrians, vehicles). To enhance global context understanding, a semantic prior prompter is introduced to learn rich semantic priors from large pre-trained model. We design the prompter by stacking multiple Semantic Pyramid Aggregation (SPA) modules, capturing a broad range of visual feature patterns. A semantic-enhanced image generator with a decoder is proposed that incorporates a novel cascaded Learnable Prior Transferring (LPT) module at each scale level. For each decoder block, an attention transfer mechanism is applied to capture long-term dependencies, and the semantic prior features are fused with the image features to restore plausible structure in an adaptive manner. Additionally, a background-aware data processing scheme is adopted to prevent the generation of hallucinated objects within holes. Experiments on Apolloscapes and Cityscapes datasets demonstrate better performance than state-of-the-art methods, with MAE, and LPIPS showing improvements of about 9.5% and 41.07% respectively. Visual comparison survey among multi-group person is also conducted to provide performance evaluation, and the results suggest that the proposed MFN offers a promising solution for privacy protection and generate more reliable scene for urban applications with street-view images.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# ART3D:テキスト誘導アートシーン生成のための3Dガウシアンスプラッティング

ART3D: 3D Gaussian Splatting for Text-Guided Artistic Scenes Generation ( http://arxiv.org/abs/2405.10508v1 )

ライセンス: Link先を確認
Pengzhi Li, Chengshuai Tang, Qinxuan Huang, Zhiheng Li, (参考訳) 本稿では,拡散モデルと3Dガウススプラッティング技術を組み合わせた新しいフレームワークART3Dを導入することで,既存の3Dアートシーン生成の課題を探求する。 本手法は,革新的な画像意味伝達アルゴリズムにより,芸術的画像と現実的画像のギャップを効果的に埋める。 深度情報と初期芸術画像を活用することで,領域差に対処する点雲マップを生成する。 さらに,3次元シーンの整合性を高めるための奥行き整合性モジュールを提案する。 最後に、3Dシーンはガウススプラッターを最適化する最初のポイントとして機能する。 ART3Dは,既存の手法と比較して,コンテントと構造整合性の両方で優れた性能を示した。 ART3Dは、高品質な3Dアートシーンを生成する革新的なソリューションを提供することで、アート創造におけるAIの分野を著しく進歩させる。

In this paper, we explore the existing challenges in 3D artistic scene generation by introducing ART3D, a novel framework that combines diffusion models and 3D Gaussian splatting techniques. Our method effectively bridges the gap between artistic and realistic images through an innovative image semantic transfer algorithm. By leveraging depth information and an initial artistic image, we generate a point cloud map, addressing domain differences. Additionally, we propose a depth consistency module to enhance 3D scene consistency. Finally, the 3D scene serves as initial points for optimizing Gaussian splats. Experimental results demonstrate ART3D's superior performance in both content and structural consistency metrics when compared to existing methods. ART3D significantly advances the field of AI in art creation by providing an innovative solution for generating high-quality 3D artistic scenes.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# マルチソース領域適応に基づく欠陥カテゴリ予測

Defect Category Prediction Based on Multi-Source Domain Adaptation ( http://arxiv.org/abs/2405.10511v1 )

ライセンス: Link先を確認
Ying Xing, Mengci Zhao, Bin Yang, Yuwei Zhang, Wenjin Li, Jiawei Gu, Jun Yuan, (参考訳) 近年,ディープラーニングに基づく欠陥予測技術は,ソフトウェア工学分野における顕著な研究課題となっている。 これらのテクニックは、コードを実行することなく潜在的な欠陥を特定することができる。 しかし、既存のアプローチは主にメソッドレベルのコードに欠陥があるかどうかを決定することに集中しており、特定の欠陥カテゴリを正確に分類する能力は欠如している。 その結果、開発者は欠陥の特定と修正の効率を損なうことになる。 さらに、実用的なソフトウェア開発では、新しいプロジェクトには高い精度のディープラーニングモデルをトレーニングするのに十分な欠陥データがないことが多い。 既存のプロジェクトからの履歴データに基づいてトレーニングされたモデルは、新しいプロジェクトで十分な一般化性能を達成するためにしばしば苦労する。 そこで本稿では,従来のバイナリ欠陥予測タスクを多ラベル分類問題に再構成し,CWE(Common Weakness Enumeration)に記載された欠陥カテゴリをきめ細かな予測ラベルとして活用する。 クロスプロジェクトシナリオにおけるモデル性能を向上させるために,対戦型トレーニングとアテンション機構を統合したマルチソースドメイン適応フレームワークを提案する。 特に,提案フレームワークでは,ドメイン(ソフトウェアプロジェクト)の相違を軽減し,さらにドメイン不変の機能を活用して,各ソースドメインと対象ドメイン間の特徴相関を捉える。 同時に、提案フレームワークは、ソースとターゲットのドメイン特徴間の表現距離を最小化するための注意機構として、重み付けされた平均差を取り入れ、よりドメインに依存しない特徴を学習するモデルを容易にする。 8つの実世界のオープンソースプロジェクトの実験から,提案手法は最先端のベースラインと比較して,大幅な性能向上を実現していることがわかった。

In recent years, defect prediction techniques based on deep learning have become a prominent research topic in the field of software engineering. These techniques can identify potential defects without executing the code. However, existing approaches mostly concentrate on determining the presence of defects at the method-level code, lacking the ability to precisely classify specific defect categories. Consequently, this undermines the efficiency of developers in locating and rectifying defects. Furthermore, in practical software development, new projects often lack sufficient defect data to train high-accuracy deep learning models. Models trained on historical data from existing projects frequently struggle to achieve satisfactory generalization performance on new projects. Hence, this paper initially reformulates the traditional binary defect prediction task into a multi-label classification problem, employing defect categories described in the Common Weakness Enumeration (CWE) as fine-grained predictive labels. To enhance the model performance in cross-project scenarios, this paper proposes a multi-source domain adaptation framework that integrates adversarial training and attention mechanisms. Specifically, the proposed framework employs adversarial training to mitigate domain (i.e., software projects) discrepancies, and further utilizes domain-invariant features to capture feature correlations between each source domain and the target domain. Simultaneously, the proposed framework employs a weighted maximum mean discrepancy as an attention mechanism to minimize the representation distance between source and target domain features, facilitating model in learning more domain-independent features. The experiments on 8 real-world open-source projects show that the proposed approach achieves significant performance improvements compared to state-of-the-art baselines.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# 事象因果同定のための文脈内コントラスト学習

In-context Contrastive Learning for Event Causality Identification ( http://arxiv.org/abs/2405.10512v1 )

ライセンス: Link先を確認
Chao Liang, Wei Xiang, Bang Wang, (参考訳) 事象因果同定(ECI)は、2つの事象間の因果関係の存在を決定することを目的としている。 最近の急進的な学習ベースのアプローチでは、ECIタスクに有望な改善が示されているが、その性能は、しばしば複数のプロンプトの繊細な設計と、メインタスクと派生タスクの正の相関に左右される。 インコンテキスト学習パラダイムは、複雑なプロンプトやデリバティブタスクへの依存を緩和し、プロンプト学習パラダイムにおけるラベル予測の明確なガイダンスを提供する。 しかし、類似学習における正と負の実証を区別するものではない。 このような考察から,コントラスト学習を利用したインコンテキストコントラスト学習(ICCL)モデルを提案する。 さらに、イベント因果同定を容易にするために、イベントペアに対してコントラスト学習を適用する。 ICCLはEventStoryLineやCausal-TimeBankなど,広く使用されているコーパスで評価され,その結果,最先端のアルゴリズムよりも大幅な性能向上が見られた。

Event Causality Identification (ECI) aims at determining the existence of a causal relation between two events. Although recent prompt learning-based approaches have shown promising improvements on the ECI task, their performance are often subject to the delicate design of multiple prompts and the positive correlations between the main task and derivate tasks. The in-context learning paradigm provides explicit guidance for label prediction in the prompt learning paradigm, alleviating its reliance on complex prompts and derivative tasks. However, it does not distinguish between positive and negative demonstrations for analogy learning. Motivated from such considerations, this paper proposes an In-Context Contrastive Learning (ICCL) model that utilizes contrastive learning to enhance the effectiveness of both positive and negative demonstrations. Additionally, we apply contrastive learning to event pairs to better facilitate event causality identification. Our ICCL is evaluated on the widely used corpora, including the EventStoryLine and Causal-TimeBank, and results show significant performance improvements over the state-of-the-art algorithms.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# エネルギーハーベストングデバイスによるフェデレーション学習: MDPフレームワーク

Federated Learning With Energy Harvesting Devices: An MDP Framework ( http://arxiv.org/abs/2405.10513v1 )

ライセンス: Link先を確認
Kai Zhang, Xuanyu Cao, (参考訳) フェデレートラーニング(FL)では、エッジデバイスがローカルなトレーニングを行い、パラメータサーバと情報を交換する必要があるため、かなりのエネルギー消費につながる。 実用FLシステムにおける重要な課題は、バッテリ寿命を縮め、学習性能に影響を及ぼす、バッテリ限定エッジデバイスの急速なエネルギー枯渇である。 この問題に対処するために, FLシステムにエネルギー回収技術を適用し, エッジデバイスを連続的に駆動する環境エネルギーを抽出する。 まず,無線FLシステムのコンバージェンスにエネルギー回収装置を配置し,そのコンバージェンスに部分的なデバイス参加とパケットドロップが影響し,エネルギー供給に依存していることを示す。 収束を加速するため、共同装置のスケジューリングと電力制御問題を定式化し、マルコフ決定過程(MDP)としてモデル化する。 このMDPを解くことで、最適な伝送ポリシーを導出し、電池やチャネル状態に対して単調な構造を持つことを示す。 最適ポリシーの計算の指数関数的複雑化に起因する次元性の呪いを克服するため,デバイス数の増加に伴って漸近的に最適な低複雑性アルゴリズムを提案する。 さらに、未知のチャネルと収穫エネルギー統計量に対して、最適ポリシーの単調構造を利用してトレーニング性能を向上させる構造強化学習アルゴリズムを開発する。 最後に、実世界のデータセットに関する広範な数値実験を行い、理論的結果を検証するとともに、提案アルゴリズムの有効性を裏付ける。

Federated learning (FL) requires edge devices to perform local training and exchange information with a parameter server, leading to substantial energy consumption. A critical challenge in practical FL systems is the rapid energy depletion of battery-limited edge devices, which curtails their operational lifespan and affects the learning performance. To address this issue, we apply energy harvesting technique in FL systems to extract ambient energy for continuously powering edge devices. We first establish the convergence bound for the wireless FL system with energy harvesting devices, illustrating that the convergence is impacted by partial device participation and packet drops, both of which depend on the energy supply. To accelerate the convergence, we formulate a joint device scheduling and power control problem and model it as a Markov decision process (MDP). By solving this MDP, we derive the optimal transmission policy and demonstrate that it possesses a monotone structure with respect to the battery and channel states. To overcome the curse of dimensionality caused by the exponential complexity of computing the optimal policy, we propose a low-complexity algorithm, which is asymptotically optimal as the number of devices increases. Furthermore, for unknown channels and harvested energy statistics, we develop a structure-enhanced deep reinforcement learning algorithm that leverages the monotone structure of the optimal policy to improve the training performance. Finally, extensive numerical experiments on real-world datasets are presented to validate the theoretical results and corroborate the effectiveness of the proposed algorithms.
翻訳日:2024-05-20 17:11:53 公開日:2024-05-17
# 長期記憶ネットワークに基づくバーチャルリアリティ体験予測のためのAdaBoostの改良

Improved AdaBoost for Virtual Reality Experience Prediction Based on Long Short-Term Memory Network ( http://arxiv.org/abs/2405.10515v1 )

ライセンス: Link先を確認
Wenhan Fan, Zhicheng Ding, Ruixin Huang, Chang Zhou, Xuyang Zhang, (参考訳) AdaBoostの改良したLong Short-Term Memory Network (LSTM)に基づく分類予測アルゴリズムを用いて,仮想現実(VR)ユーザエクスペリエンスの予測を行う。 データセットは、7:3の比率でトレーニングセットとテストセットにランダムに分割され、トレーニングプロセスの間、モデルの損失値は0.65から0.31に減少し、モデルが予測結果と実際のラベルとの差を徐々に減らし、精度と一般化能力を向上させる。 トレーニングセットの混乱行列は、合計で177の正確な予測と52の誤った予測を示し、精度は77%、精度は88%、リコールは77%、f1スコアは82%であった。 テストセットの混乱行列は、75%の精度、87%の精度、57%のリコール、69%のf1スコアで、合計167の正確さと53の誤予測を示した。 要約すると、AdaBoostを改良したLSTMに基づく分類予測アルゴリズムは、仮想現実ユーザーエクスペリエンスに優れた予測能力を示す。 本研究は,ユーザエクスペリエンスにおける仮想現実技術の適用性を高める上で,極めて重要である。 LSTMアルゴリズムとAdaBoostアルゴリズムを組み合わせることで、モデルの精度と一般化能力を向上するだけでなく、仮想現実分野の関連研究に有用な洞察を提供するユーザエクスペリエンス予測が大幅に進歩した。 このアプローチは、開発者がユーザー要求をよりよく理解し、仮想現実製品設計を最適化し、ユーザーの満足度を高め、様々な分野における仮想現実技術の幅広い応用を促進するのに役立つ。

A classification prediction algorithm based on Long Short-Term Memory Network (LSTM) improved AdaBoost is used to predict virtual reality (VR) user experience. The dataset is randomly divided into training and test sets in the ratio of 7:3.During the training process, the model's loss value decreases from 0.65 to 0.31, which shows that the model gradually reduces the discrepancy between the prediction results and the actual labels, and improves the accuracy and generalisation ability.The final loss value of 0.31 indicates that the model fits the training data well, and is able to make predictions and classifications more accurately. The confusion matrix for the training set shows a total of 177 correct predictions and 52 incorrect predictions, with an accuracy of 77%, precision of 88%, recall of 77% and f1 score of 82%. The confusion matrix for the test set shows a total of 167 correct and 53 incorrect predictions with 75% accuracy, 87% precision, 57% recall and 69% f1 score. In summary, the classification prediction algorithm based on LSTM with improved AdaBoost shows good prediction ability for virtual reality user experience. This study is of great significance to enhance the application of virtual reality technology in user experience. By combining LSTM and AdaBoost algorithms, significant progress has been made in user experience prediction, which not only improves the accuracy and generalisation ability of the model, but also provides useful insights for related research in the field of virtual reality. This approach can help developers better understand user requirements, optimise virtual reality product design, and enhance user satisfaction, promoting the wide application of virtual reality technology in various fields.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# 確率差を用いた言語モデルによるテーマ評価

Language Models can Evaluate Themselves via Probability Discrepancy ( http://arxiv.org/abs/2405.10516v1 )

ライセンス: Link先を確認
Tingyu Xia, Bowen Yu, Yuan Wu, Yi Chang, Chang Zhou, (参考訳) 本稿では,Large Language Models (LLMs) がクエリに応答するタスクに対して,より熟練度が高い場合の確率分布を,より熟練度が低い場合の確率分布として示すことによって,議論を開始する。 本稿では, この基礎的知見を拡張し, 各種LLMの有効性を評価するための自己評価手法ProbDiffを提案する。 このアプローチは、追加評価モデルの必要性や、判断のためにGPT-4のような外部独自のモデルに依存しない。 テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。 与えられた2つのLLM間のクエリに対する高い差は、比較的弱い能力を示している。 提案したXiaohongshuブログ作成タスクやAlignBench, MT-Bench, AlpacaEvalなどのLCM評価のためのベンチマークなど, 自然言語生成タスク(NLG)の多種多様なシナリオを対象として, GPT-4に基づく評価から得られた結果に匹敵する結果が得られた。

In this paper, we initiate our discussion by demonstrating how Large Language Models (LLMs), when tasked with responding to queries, display a more even probability distribution in their answers if they are more adept, as opposed to their less skilled counterparts. Expanding on this foundational insight, we propose a new self-evaluation method ProbDiff for assessing the efficacy of various LLMs. This approach obviates the necessity for an additional evaluation model or the dependence on external, proprietary models like GPT-4 for judgment. It uniquely utilizes the LLMs being tested to compute the probability discrepancy between the initial response and its revised versions. A higher discrepancy for a given query between two LLMs indicates a relatively weaker capability. Our findings reveal that ProbDiff achieves results on par with those obtained from evaluations based on GPT-4, spanning a range of scenarios that include natural language generation (NLG) tasks such as translation, summarization, and our proposed Xiaohongshu blog writing task, and benchmarks for LLM evaluation like AlignBench, MT-Bench, and AlpacaEval, across LLMs of varying magnitudes.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# QAに基づくイベント抽出における質問生成の改善に向けて

Towards Better Question Generation in QA-Based Event Extraction ( http://arxiv.org/abs/2405.10517v1 )

ライセンス: Link先を確認
Zijin Hong, Jian Liu, (参考訳) イベント抽出(EE)は、構造化されていないテキストからイベント関連情報を抽出することを目的とした重要な情報抽出タスクである。 この課題のパラダイムは、従来の分類に基づく手法から、より現代的な質問回答(QA)に基づくアプローチへと移行してきた。 しかし、QAベースのEEでは、質問の品質が抽出精度に劇的に影響を与え、QAベースのEEに対して高品質な質問を生成する方法が依然として課題である。 この課題に対処するために,質問の品質を評価するための4つの基準を提案し,QAモデルに対して,流動的で一般化可能な,文脈に依存した質問を生成でき,明確なガイダンスを提供するQAベースのEEの強化学習手法を提案する。 ACEとRAMSデータセットで実施された広範な実験は、我々のアプローチの有効性を強く検証しており、訓練データに制限のあるシナリオにおける堅牢性も示している。

Event Extraction (EE) is an essential information extraction task that aims to extract event-related information from unstructured texts. The paradigm of this task has shifted from conventional classification-based methods to more contemporary question-answering (QA)-based approaches. However, in QA-based EE, the questions' quality dramatically affects the extraction accuracy, and how to generate high-quality questions for QA-based EE still remains a challenge. In this work, to tackle this challenge, we suggest four criteria to evaluate the quality of a question and propose a reinforcement learning method for QA-Based EE that can generate fluent, generalizable, and context-dependent questions and provides clear guidance to QA models. The extensive experiments conducted on ACE and RAMS datasets have strongly validated our approach's effectiveness, which also demonstrates its robustness in scenarios with limited training data.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# 可逆ニューラルネットワークを用いたリモートセンシング画像圧縮における知覚品質向上

Enhancing Perception Quality in Remote Sensing Image Compression via Invertible Neural Network ( http://arxiv.org/abs/2405.10518v1 )

ライセンス: Link先を確認
Junhui Li, Xingsong Hou, (参考訳) リモートセンシング画像をデコードして、特に低ビットレートで高い知覚品質を実現することは、依然として大きな課題である。 この問題に対処するために,インバータブルニューラルネットワークを用いたリモートセンシング画像圧縮法(INN-RSIC)を提案する。 具体的には、既存の画像圧縮アルゴリズムから圧縮歪みをキャプチャし、それをINNを介してガウス分布の潜在変数の集合として符号化する。 これにより、デコードされた画像の圧縮歪みが、基底真理から独立することを保証する。 したがって, INNの逆写像を利用することで, ランダムに再サンプリングされたガウス分布変数の集合を逆ネットワークに入力し, 知覚品質を向上した拡張画像を効果的に生成することができる。 圧縮歪みを効果的に学習するために、チャネル展開、ハール変換、および可逆ブロックを用いて INN を構築する。 さらに、フォーマット変換の影響を軽減するために量子化モジュール(QM)を導入し、フレームワークの一般化を強化し、画像の知覚品質を向上させる。 広汎な実験により,我々の INN-RSIC は従来の画像圧縮法と深層学習による画像圧縮法を,知覚品質の観点から大きく上回っていることが明らかとなった。

Decoding remote sensing images to achieve high perceptual quality, particularly at low bitrates, remains a significant challenge. To address this problem, we propose the invertible neural network-based remote sensing image compression (INN-RSIC) method. Specifically, we capture compression distortion from an existing image compression algorithm and encode it as a set of Gaussian-distributed latent variables via INN. This ensures that the compression distortion in the decoded image becomes independent of the ground truth. Therefore, by leveraging the inverse mapping of INN, we can input the decoded image along with a set of randomly resampled Gaussian distributed variables into the inverse network, effectively generating enhanced images with better perception quality. To effectively learn compression distortion, channel expansion, Haar transformation, and invertible blocks are employed to construct the INN. Additionally, we introduce a quantization module (QM) to mitigate the impact of format conversion, thus enhancing the framework's generalization and improving the perceptual quality of enhanced images. Extensive experiments demonstrate that our INN-RSIC significantly outperforms the existing state-of-the-art traditional and deep learning-based image compression methods in terms of perception quality.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# セキュリティとプライバシ保護のためのジェネレーティブAI

Generative AI for Secure and Privacy-Preserving Mobile Crowdsensing ( http://arxiv.org/abs/2405.10521v1 )

ライセンス: Link先を確認
Yaoqi Yang, Bangning Zhang, Daoxing Guo, Hongyang Du, Zehui Xiong, Dusit Niyato, Zhu Han, (参考訳) 近年、生成AIは、特にデータ生成と合成の面でその可能性を示す学術分野と産業分野の両方から注目を集めている。 同時に、セキュアでプライバシ保護のモバイルクラウドセンシング(SPPMCS)が、低いデプロイメントコスト、フレキシブルな実装、高い適応性といったメリットにより、データ収集/取得に広く適用されている。 生成AIは、分析および処理する元のデータを置き換えるために、新しい合成データを生成することができるため、元のデータに対するデータ攻撃とプライバシリークリスクを低減することができる。 したがって、生成AIをSPPMCSに統合することは可能であり、重要である。 そこで本研究では,SPPMCSにおける生成AIの統合について検討し,本研究の可能性,解決策,ケーススタディについて述べる。 具体的には、まず、生成型AIとSPPMCSのプリミナリーをレビューし、その統合可能性を示す。 次に、悪意のあるデータ注入のセキュリティ保護、不正な認可、物理層における悪意のあるスペクトル操作、データコンテンツの検出に対するプライバシー保護、端末の識別と位置の検知を含む、生成AI対応SPPMCSの研究課題と解決策について議論する。 次に,データコンテンツ保護を生成AIで検出するフレームワークを提案する。 最後に, 生成型AI対応SPPMCS研究の方向性を示す。

Recently, generative AI has attracted much attention from both academic and industrial fields, which has shown its potential, especially in the data generation and synthesis aspects. Simultaneously, secure and privacy-preserving mobile crowdsensing (SPPMCS) has been widely applied in data collection/ acquirement due to an advantage on low deployment cost, flexible implementation, and high adaptability. Since generative AI can generate new synthetic data to replace the original data to be analyzed and processed, it can lower data attacks and privacy leakage risks for the original data. Therefore, integrating generative AI into SPPMCS is feasible and significant. Moreover, this paper investigates an integration of generative AI in SPPMCS, where we present potential research focuses, solutions, and case studies. Specifically, we firstly review the preliminaries for generative AI and SPPMCS, where their integration potential is presented. Then, we discuss research issues and solutions for generative AI-enabled SPPMCS, including security defense of malicious data injection, illegal authorization, malicious spectrum manipulation at the physical layer, and privacy protection on sensing data content, sensing terminals' identification and location. Next, we propose a framework for sensing data content protection with generative AI, and simulations results have clearly demonstrated the effectiveness of the proposed framework. Finally, we present major research directions for generative AI-enabled SPPMCS.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# スマートエキスパートシステム:テキスト分類器としての大規模言語モデル

Smart Expert System: Large Language Models as Text Classifiers ( http://arxiv.org/abs/2405.10523v1 )

ライセンス: Link先を確認
Zhiqiang Wang, Yiran Pang, Yanbin Lin, (参考訳) テキスト分類は自然言語処理(NLP)の基本課題であり、Large Language Models(LLM)の出現はこの分野に革命をもたらした。 本稿では,LLMをテキスト分類器として活用する新しいアプローチであるSmart Expert Systemを紹介する。 このシステムは従来のテキスト分類ワークフローを単純化し、広範な前処理やドメインの専門知識を必要としない。 複数のLLM、機械学習(ML)アルゴリズム、ニューラルネットワーク(NN)ベースの構造の性能を4つのデータセットで評価する。 その結果, 感情分析, スパムSMS検出, マルチラベル分類において, LLMが従来の手法を超越していることが示唆された。 さらに、いくつかのショットや微調整の戦略によってシステムのパフォーマンスをさらに向上できることが示され、細調整されたモデルがすべてのデータセットでトップパフォーマーとなる。 ソースコードとデータセットは、GitHubリポジトリで入手できる。

Text classification is a fundamental task in Natural Language Processing (NLP), and the advent of Large Language Models (LLMs) has revolutionized the field. This paper introduces the Smart Expert System, a novel approach that leverages LLMs as text classifiers. The system simplifies the traditional text classification workflow, eliminating the need for extensive preprocessing and domain expertise. The performance of several LLMs, machine learning (ML) algorithms, and neural network (NN) based structures is evaluated on four datasets. Results demonstrate that certain LLMs surpass traditional methods in sentiment analysis, spam SMS detection and multi-label classification. Furthermore, it is shown that the system's performance can be further enhanced through few-shot or fine-tuning strategies, making the fine-tuned model the top performer across all datasets. Source code and datasets are available in this GitHub repository: https://github.com/yeyimilk/llm-zero-shot-classifiers.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# 量子推定のためのベイズ対数微分型下界

Bayesian Logarithmic Derivative Type Lower Bounds for Quantum Estimation ( http://arxiv.org/abs/2405.10525v1 )

ライセンス: Link先を確認
Jianchao Zhang, Jun Suzuki, (参考訳) 量子パラメータ推定に対するベイズ的アプローチは、量子推定理論の実践的応用から新たな関心を集めている。 近年、量子領域におけるベイズリスクに対するベイズ・ナガオカ・ハヤシ境界(Bayesian Nagaoka-Hayashi bound)と呼ばれる下界が提案され、これはコンロンらによる量子状態の点推定への新たなアプローチの拡張である(2021年)。 本研究の目的は,このベイズ長岡-早橋境界を下限から探究することである。 まず、点推定におけるホレヴォ境界の類似である下界の1パラメータ族を得る。 これにより、パラメータ独立重み行列設定のための閉形式でベイズ対数微分型下界の1パラメータ族を導出する。 この新たな境界は、特別の場合として、以前に知られていたベイズ的下界を含む。

Bayesian approach for quantum parameter estimation has gained a renewed interest from practical applications of quantum estimation theory. Recently, a lower bound, called the Bayesian Nagaoka-Hayashi bound for the Bayes risk in quantum domain was proposed, which is an extension of a new approach to point estimation of quantum states by Conlon et al. (2021). The objective of this paper is to explore this Bayesian Nagaoka-Hayashi bound further by obtaining its lower bounds. We first obtain one-parameter family of lower bounds, which is an analogue of the Holevo bound in point estimation. Thereby, we derive one-parameter family of Bayesian logarithmic derivative type lower bounds in a closed form for the parameter independent weight matrix setting. This new bound includes previously known Bayesian lower bounds as special cases.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# 資源効率の良いハイブリッド量子-古典シミュレーションアルゴリズム

Resource-Efficient Hybrid Quantum-Classical Simulation Algorithm ( http://arxiv.org/abs/2405.10528v1 )

ライセンス: Link先を確認
Chong Hian Chee, Daniel Leykam, Adrian M. Mak, Kishor Bharti, Dimitris G. Angelakis, (参考訳) デジタル量子コンピュータは、量子時間進化の実行において指数的なスピードアップを約束し、物理学や化学における複雑なシステムの量子力学をシミュレートする機会を提供する。 しかし、中間時間ステップで所望の量子特性を抽出するタスクは、波動関数の崩壊と高速フォワード定理による計算ボトルネックのままである。 フォールトトレラント量子コンピュータ (FTQC) の構築には大きな進歩があるが、資源効率のよい量子シミュレータは依然として必要である。 本稿では,従来のコンピュータがFTQCデバイスと量子時間プロパゲータを利用して,このボトルネックを克服し,未知のシステム固有状態の重ね合わせで初期化された大規模システムの量子力学を効率的にシミュレートするハイブリッドシミュレータを提案する。 最適化サブルーチンが不要で、不規則な高原の問題を回避すると同時に、多くの時間ステップが必要な場合の標準手法に比べて、量子リソースの消費が少ない。

Digital quantum computers promise exponential speedups in performing quantum time-evolution, providing an opportunity to simulate quantum dynamics of complex systems in physics and chemistry. However, the task of extracting desired quantum properties at intermediate time steps remains a computational bottleneck due to wavefunction collapse and no-fast-forwarding theorem. Despite significant progress towards building a Fault-Tolerant Quantum Computer (FTQC), there is still a need for resource-efficient quantum simulators. Here, we propose a hybrid simulator that enables classical computers to leverage FTQC devices and quantum time propagators to overcome this bottleneck, so as to efficiently simulate the quantum dynamics of large systems initialized in an unknown superposition of a few system eigenstates. It features no optimization subroutines and avoids barren plateau issues, while consuming fewer quantum resources compared to standard methods when many time steps are required.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# パッチ付き視覚プロンプトインジェクタに対する視覚言語モデルの保護

Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors ( http://arxiv.org/abs/2405.10529v1 )

ライセンス: Link先を確認
Jiachen Sun, Changsheng Wang, Jiongxiao Wang, Yiwei Zhang, Chaowei Xiao, (参考訳) 大規模言語モデルはますます顕著になり、人工知能の次のフロンティアとしてマルチモーダリティへのシフトを示唆している。 視覚言語モデル(VLM)はこの進歩の最前線にあり、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供している。 しかし、この統合は攻撃面を拡大する。 パッチベースの敵攻撃は、既存の多くの文献で示されているように、物理的な視覚応用において最も現実的な脅威モデルと考えられている。 本稿では,VLMのターゲットコンテンツを生成するために,相手が相手のパッチを利用するようなパッチ付きビジュアルプロンプトインジェクションを提案する。 本研究は, 画素単位のランダム化に対して, パッチを施した対向性刺激が感受性を示すことを明らかにした。 この知見を活かして、スムージング技術に根ざした防御機構であるSmoothVLMを導入し、特に、パッチされた視覚的プロンプトインジェクタの脅威からVLMを保護するようにした。 我々のフレームワークは、2つの主要なVLMにおいて攻撃成功率を0%から5.0%の範囲に格段に低下させ、67.3%から95.0%のコンテキスト回復を実現し、セキュリティとユーザビリティのバランスを示す。

Large language models have become increasingly prominent, also signaling a shift towards multimodality as the next frontier in artificial intelligence, where their embeddings are harnessed as prompts to generate textual content. Vision-language models (VLMs) stand at the forefront of this advancement, offering innovative ways to combine visual and textual data for enhanced understanding and interaction. However, this integration also enlarges the attack surface. Patch-based adversarial attack is considered the most realistic threat model in physical vision applications, as demonstrated in many existing literature. In this paper, we propose to address patched visual prompt injection, where adversaries exploit adversarial patches to generate target content in VLMs. Our investigation reveals that patched adversarial prompts exhibit sensitivity to pixel-wise randomization, a trait that remains robust even against adaptive attacks designed to counteract such defenses. Leveraging this insight, we introduce SmoothVLM, a defense mechanism rooted in smoothing techniques, specifically tailored to protect VLMs from the threat of patched visual prompt injectors. Our framework significantly lowers the attack success rate to a range between 0% and 5.0% on two leading VLMs, while achieving around 67.3% to 95.0% context recovery of the benign images, demonstrating a balance between security and usability.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# CM-UNet:リモートセンシング画像セマンティックセグメンテーションのためのハイブリッドCNN-Mamba UNet

CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2405.10530v1 )

ライセンス: Link先を確認
Mushui Liu, Jun Dan, Ziqian Lu, Yunlong Yu, Yingming Li, Xi Li, (参考訳) 大規模な画像サイズとオブジェクトのバリエーションのため、リモートセンシング画像セマンティックセグメンテーションのための現在のCNNおよびTransformerベースのアプローチは、長距離依存を捉えたり、複雑な計算複雑性に制限されたりするのに最適である。 本稿では,ローカル画像の特徴を抽出するCNNベースのエンコーダと,グローバル情報を集約・統合するMambaベースのデコーダからなるCM-UNetを提案し,リモートセンシング画像の効率的なセマンティックセマンティックセマンティックセマンティクスを容易にする。 具体的には、コアセグメンテーションデコーダを構築するためにCSMambaブロックを導入し、チャンネルと空間の注意をバニラマンバのゲートアクティベーション条件として使い、特徴相互作用とグローバルローカル情報融合を強化する。 さらに、CNNエンコーダの出力機能をさらに洗練するために、異なるスケールの機能をマージするために、MSAA(Multi-Scale Attention Aggregation)モジュールが使用される。 CSMambaブロックとMSAAモジュールを統合することで、CM-UNetは大規模リモートセンシング画像の長距離依存性とマルチスケールグローバルコンテキスト情報を効果的にキャプチャする。 3つのベンチマークで得られた実験結果から,提案したCM-UNetは,様々な性能指標において既存手法よりも優れていたことが示唆された。 コードはhttps://github.com/XiaoBuL/CM-UNet.comで公開されている。

Due to the large-scale image size and object variations, current CNN-based and Transformer-based approaches for remote sensing image semantic segmentation are suboptimal for capturing the long-range dependency or limited to the complex computational complexity. In this paper, we propose CM-UNet, comprising a CNN-based encoder for extracting local image features and a Mamba-based decoder for aggregating and integrating global information, facilitating efficient semantic segmentation of remote sensing images. Specifically, a CSMamba block is introduced to build the core segmentation decoder, which employs channel and spatial attention as the gate activation condition of the vanilla Mamba to enhance the feature interaction and global-local information fusion. Moreover, to further refine the output features from the CNN encoder, a Multi-Scale Attention Aggregation (MSAA) module is employed to merge the different scale features. By integrating the CSMamba block and MSAA module, CM-UNet effectively captures the long-range dependencies and multi-scale global contextual information of large-scale remote-sensing images. Experimental results obtained on three benchmarks indicate that the proposed CM-UNet outperforms existing methods in various performance metrics. The codes are available at https://github.com/XiaoBuL/CM-UNet.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# 入射神経表現の非パラメトリック指導

Nonparametric Teaching of Implicit Neural Representations ( http://arxiv.org/abs/2405.10531v1 )

ライセンス: Link先を確認
Chen Zhang, Steven Tin Sui Luo, Jason Chun Lok Li, Yik-Chung Wu, Ngai Wong, (参考訳) 過パラメータ化多層パーセプトロン(MLP)を用いた暗黙的神経表現(INR)の学習について,新しい非パラメトリック教育の観点から検討した。 後者は、画素の2Dグリッドで定義される画像関数など、非パラメトリック的(つまり非閉形式)なターゲット関数を教えるための効率的な例選択フレームワークを提供する。 本稿では,INR 学習を非パラメトリックな教育問題として扱う Inlicit Neural Teaching (INT) というパラダイムを提案する。 その後、教師はMLPの反復的な訓練のために信号フラグメントを選択し、迅速に収束する。 非パラメトリック教育におけるパラメータベースの勾配勾配によるMLPの進化と機能的勾配勾配による関数進化の関連性を確立することで、過度パラメータ化されたMLPを教えることは非パラメトリック学習者を教えることと一致していることを示す。 この新たな発見により、簡便な非パラメトリック学習アルゴリズムのドロップインにより、INRトレーニングの効率が広く向上し、様々な入力モードで30%以上のトレーニング時間を節約できる。

We investigate the learning of implicit neural representation (INR) using an overparameterized multilayer perceptron (MLP) via a novel nonparametric teaching perspective. The latter offers an efficient example selection framework for teaching nonparametrically defined (viz. non-closed-form) target functions, such as image functions defined by 2D grids of pixels. To address the costly training of INRs, we propose a paradigm called Implicit Neural Teaching (INT) that treats INR learning as a nonparametric teaching problem, where the given signal being fitted serves as the target function. The teacher then selects signal fragments for iterative training of the MLP to achieve fast convergence. By establishing a connection between MLP evolution through parameter-based gradient descent and that of function evolution through functional gradient descent in nonparametric teaching, we show for the first time that teaching an overparameterized MLP is consistent with teaching a nonparametric learner. This new discovery readily permits a convenient drop-in of nonparametric teaching algorithms to broadly enhance INR training efficiency, demonstrating 30%+ training time savings across various input modalities.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# 安全最適化のためのCMA-ES

CMA-ES for Safe Optimization ( http://arxiv.org/abs/2405.10534v1 )

ライセンス: Link先を確認
Kento Uchida, Ryoki Hamano, Masahiro Nomura, Shota Saito, Shinichi Shirakawa, (参考訳) 医療・制御工学における実世界のいくつかの応用では、評価に固有のリスクが伴う安全でない解決策が存在する。 この最適化設定は安全な最適化として知られ、安全関数の制約付き制約付き最適化問題として定式化されている。 安全な最適化には、安全でないソリューションを評価することなく効率的な最適化を行う必要がある。 いくつかの研究がベイズ最適化と進化的アルゴリズムに基づく安全な最適化法を提案している。 しかし、ベイズ最適化に基づく手法は優れた解を得るのに苦労することが多く、進化的アルゴリズムに基づく手法は安全でない評価を効果的に減らすことができない。 本研究は,効率的な進化アルゴリズムとしてCMA-ESに着目し,安全なCMA-ESと呼ばれる最適化手法を提案する。 安全なCMA-ESは、安全な最適化において安全性と効率の両方を達成するように設計されている。 安全なCMA-ESは、ガウス過程回帰の勾配の最大ノルムを用いて、分布パラメータで変換された安全関数のリプシッツ定数を推定する。 その後、安全なCMA-ESは、推定されたリプシッツ定数で構築された安全な領域の最も近い地点にサンプルを投影する。 ベンチマーク関数を用いた数値シミュレーションにより、安全性の高いCMA-ESが最適化に成功し、安全性の低い評価を抑える一方、既存の手法では安全性の低い評価を著しく削減することが示されている。

In several real-world applications in medical and control engineering, there are unsafe solutions whose evaluations involve inherent risk. This optimization setting is known as safe optimization and formulated as a specialized type of constrained optimization problem with constraints for safety functions. Safe optimization requires performing efficient optimization without evaluating unsafe solutions. A few studies have proposed the optimization methods for safe optimization based on Bayesian optimization and the evolutionary algorithm. However, Bayesian optimization-based methods often struggle to achieve superior solutions, and the evolutionary algorithm-based method fails to effectively reduce unsafe evaluations. This study focuses on CMA-ES as an efficient evolutionary algorithm and proposes an optimization method termed safe CMA-ES. The safe CMA-ES is designed to achieve both safety and efficiency in safe optimization. The safe CMA-ES estimates the Lipschitz constants of safety functions transformed with the distribution parameters using the maximum norm of the gradient in Gaussian process regression. Subsequently, the safe CMA-ES projects the samples to the nearest point in the safe region constructed with the estimated Lipschitz constants. The numerical simulation using the benchmark functions shows that the safe CMA-ES successfully performs optimization, suppressing the unsafe evaluations, while the existing methods struggle to significantly reduce the unsafe evaluations.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# エネルギー貯蔵制御のための時間変化制約を考慮した強化学習

Time-Varying Constraint-Aware Reinforcement Learning for Energy Storage Control ( http://arxiv.org/abs/2405.10536v1 )

ライセンス: Link先を確認
Jaeik Jeong, Tai-Yeon Ku, Wan-Ki Park, (参考訳) 電池、熱エネルギー貯蔵装置、水素システムなどのエネルギー貯蔵装置は、より安定で持続可能な電力供給を確保することで、気候変動を緩和するのに役立つ。 このようなエネルギー貯蔵の有効性を最大化するためには、各期間の適切な充電量及び排出量を決定することが重要である。 強化学習は、動的で複雑な環境に適応できるため、エネルギー貯蔵の制御において従来の最適化よりも好まれる。 しかし、エネルギー貯蔵における充電および排出の継続的な性質は、離散的な強化学習の限界を生じさせ、また、充電状態(SoC)の変動に基づく時間変化可能な電荷放出範囲も従来の連続強化学習を制限している。 本稿では,時間変化可能な帯電帯電範囲を考慮した継続的強化学習手法を提案する。 政策学習にアクターを訓練する目的と価値学習に批判する目的を補足し、各期間に実行可能な行動範囲を学習するための追加の目的関数を導入した。 これにより、連続フル充電や放電など、最適以下の状態に収まるのを防ぎ、エネルギー貯蔵の利用を積極的に促進する。 これは、充電と排出のレベルを実行可能なアクション範囲に強制することで達成される。 実験により,提案手法は有効利用を活発に進めることで,エネルギー貯蔵の有効性をさらに最大化することを示した。

Energy storage devices, such as batteries, thermal energy storages, and hydrogen systems, can help mitigate climate change by ensuring a more stable and sustainable power supply. To maximize the effectiveness of such energy storage, determining the appropriate charging and discharging amounts for each time period is crucial. Reinforcement learning is preferred over traditional optimization for the control of energy storage due to its ability to adapt to dynamic and complex environments. However, the continuous nature of charging and discharging levels in energy storage poses limitations for discrete reinforcement learning, and time-varying feasible charge-discharge range based on state of charge (SoC) variability also limits the conventional continuous reinforcement learning. In this paper, we propose a continuous reinforcement learning approach that takes into account the time-varying feasible charge-discharge range. An additional objective function was introduced for learning the feasible action range for each time period, supplementing the objectives of training the actor for policy learning and the critic for value learning. This actively promotes the utilization of energy storage by preventing them from getting stuck in suboptimal states, such as continuous full charging or discharging. This is achieved through the enforcement of the charging and discharging levels into the feasible action range. The experimental results demonstrated that the proposed method further maximized the effectiveness of energy storage by actively enhancing its utilization.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# CFLUEによる大規模言語モデルのベンチマーク - 評価データセットの中国金融言語理解-

Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset ( http://arxiv.org/abs/2405.10542v1 )

ライセンス: Link先を確認
Jie Zhu, Junhui Li, Yalong Wen, Lifan Guo, (参考訳) 自然言語処理 (NLP) に革命をもたらした大規模言語モデル (LLM) の最近のブレークスルーを鑑み, LLM の急速な開発に追随する新たなベンチマークの必要性が緊急に迫られている。 本稿では,中国金融言語理解評価ベンチマークであるCFLUEを提案する。 具体的には、CFLUEは知識アセスメントとアプリケーションアセスメントの両方に適したデータセットを提供する。 知識評価では、38K以上の質問と関連する解法の説明からなる。 これらの質問は、答えの予測と質問の推論という2つの目的を果たす。 アプリケーションアセスメントにおいて、CFLUEはテキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスを特徴とする。 CFLUEでは,代表LLMの徹底的な評価を行う。 その結果, GPT-4 と GPT-4-turbo は知識評価の解答精度が 60 % を超えていることがわかった。 アプリケーションアセスメントでは、GPT-4とGPT-4-turboが上位2つのパフォーマーであるが、軽量LLMに対する大きなアドバンテージは著しく低下している。 CFLUEに関連するデータセットとスクリプトはhttps://github.com/aliyun/cflue.comで公開されている。

In light of recent breakthroughs in large language models (LLMs) that have revolutionized natural language processing (NLP), there is an urgent need for new benchmarks to keep pace with the fast development of LLMs. In this paper, we propose CFLUE, the Chinese Financial Language Understanding Evaluation benchmark, designed to assess the capability of LLMs across various dimensions. Specifically, CFLUE provides datasets tailored for both knowledge assessment and application assessment. In knowledge assessment, it consists of 38K+ multiple-choice questions with associated solution explanations. These questions serve dual purposes: answer prediction and question reasoning. In application assessment, CFLUE features 16K+ test instances across distinct groups of NLP tasks such as text classification, machine translation, relation extraction, reading comprehension, and text generation. Upon CFLUE, we conduct a thorough evaluation of representative LLMs. The results reveal that only GPT-4 and GPT-4-turbo achieve an accuracy exceeding 60\% in answer prediction for knowledge assessment, suggesting that there is still substantial room for improvement in current LLMs. In application assessment, although GPT-4 and GPT-4-turbo are the top two performers, their considerable advantage over lightweight LLMs is noticeably diminished. The datasets and scripts associated with CFLUE are openly accessible at https://github.com/aliyun/cflue.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# SMARD:作物病分類のための費用対効果の高いスマート農業開発技術

SMARD: A Cost Effective Smart Agro Development Technology for Crops Disease Classification ( http://arxiv.org/abs/2405.10543v1 )

ライセンス: Link先を確認
Tanoy Debnath, Shadman Wadith, Anichur Rahman, (参考訳) 農業は国の経済において重要な役割を担っている。 SMARD」プロジェクトは、農家に共通の困難を解決し生産性を高めるために必要な情報とツールを提供することで、国の農業セクターを強化することを目的としている。 このプロジェクトは、農家に作物管理、種選別、病気管理のベストプラクティスに関する情報を提供し、また作物病の認識と治療のためのツールへのアクセスを提供する。 農家はテキストメッセージ、音声通話、ビデオ通話を通じて専門家パネルと連絡を取り、肥料、種子、農薬を低価格で購入できるほか、銀行ローンも確保できる。 プロジェクトの目的は、農業と農村のコミュニティに、収穫量を増やすために必要な資源を提供することである。 さらに、「SMARD」は、農家や農村部がより良い生活を送るのを助けるだけでなく、国の経済にも良い影響を与えるだろう。 農家は、画像処理の分類に基づく機械学習技術の適用により、植物の病気をより迅速に認識できるようになった。 我々のシステムSMARDは,作物病の分類において97.3%の分類精度と96%のF1スコアを達成し,最先端のWebアプリケーションよりも優れた性能を示した。 総じて、我が国のプロジェクトは、農家に収穫量を増やし、経済的な成果を高め、生活を改善するために必要な情報、資源、ツールを提供することが主な目的であるため、国内の農業セクターにとって重要な取り組みである。

Agriculture has a significant role in a country's economy. The "SMARD" project aims to strengthen the country's agricultural sector by giving farmers with the information and tools they need to solve common difficulties and increase productivity. The project provides farmers with information on crop care, seed selection, and disease management best practices, as well as access to tools for recognizing and treating crop diseases. Farmers can also contact the expert panel through text message, voice call, or video call to purchase fertilizer, seeds, and pesticides at low prices, as well as secure bank loans. The project's goal is to empower farmers and rural communities by providing them with the resources they need to increase crop yields. Additionally, the "SMARD" will not only help farmers and rural communities live better lives, but it will also have a good effect on the economy of the nation. Farmers are now able to recognize plant illnesses more quickly because of the application of machine learning techniques based on image processing categorization. Our experiments' results show that our system "SMARD" outperforms the cutting-edge web applications by attaining 97.3% classification accuracy and 96% F1-score in crop disease classification. Overall, our project is an important endeavor for the nation's agricultural sector because its main goal is to give farmers the information, resources, and tools they need to increase crop yields, improve economic outcomes, and improve livelihoods.
翻訳日:2024-05-20 17:02:02 公開日:2024-05-17
# 言語モデルは、新しいタスクのためのクロスタスク・インコンテキスト学習を爆発させることができる

Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks ( http://arxiv.org/abs/2405.10548v1 )

ライセンス: Link先を確認
Anwoy Chatterjee, Eshaan Tanwar, Subhabrata Dutta, Tanmoy Chakraborty, (参考訳) LLM(Large Language Models)は、ICL(In-context Learning)機能でNLPを変換した。 LLMをベースとした自動アシスタントが普及しているが、新しいタスクに適応することは依然として困難である。 コロッサルモデルはゼロショット性能に優れるが、その計算要求は広範囲の使用を制限し、より小さな言語モデルは文脈なしでは苦労する。 本稿では,予め定義されたタスクのラベル付き例から新しいタスクまで,LLMが一般化できるかどうかを検討する。 生体ニューロンからインスピレーションを得て、トランスフォーマーアーキテクチャの機械的解釈を行い、タスク間での情報共有の可能性を探る。 我々は,3つのLLMを用いたクロスタスクプロンプトセットアップを設計し,目標タスクの例を示さずに,LLMが大幅な性能向上を実現していることを示す。 クロスタスクプロンプトは、LLaMA-2 7Bが107%、LLaMA-2 13Bが18.6%、GPT3.5が3.2%、ゼロショットプロンプトが平均3.2%、標準のインコンテキスト学習に匹敵するパフォーマンス向上をもたらす。 In-task例に対する擬似ラベル生成の有効性を実証し,本分析により,クロスタスク例の効果と,ソースおよびターゲット入力トークンにおけるモデルアクティベーションの類似性との間に強い相関関係が示された。 本稿では,異なる課題事例から得られた文脈信号に基づいて,LLMの課題解決能力について検討する。

Large Language Models (LLMs) have transformed NLP with their remarkable In-context Learning (ICL) capabilities. Automated assistants based on LLMs are gaining popularity; however, adapting them to novel tasks is still challenging. While colossal models excel in zero-shot performance, their computational demands limit widespread use, and smaller language models struggle without context. This paper investigates whether LLMs can generalize from labeled examples of predefined tasks to novel tasks. Drawing inspiration from biological neurons and the mechanistic interpretation of the Transformer architecture, we explore the potential for information sharing across tasks. We design a cross-task prompting setup with three LLMs and show that LLMs achieve significant performance improvements despite no examples from the target task in the context. Cross-task prompting leads to a remarkable performance boost of 107% for LLaMA-2 7B, 18.6% for LLaMA-2 13B, and 3.2% for GPT 3.5 on average over zero-shot prompting, and performs comparable to standard in-context learning. The effectiveness of generating pseudo-labels for in-task examples is demonstrated, and our analyses reveal a strong correlation between the effect of cross-task examples and model activation similarities in source and target input tokens. This paper offers a first-of-its-kind exploration of LLMs' ability to solve novel tasks based on contextual signals from different task examples.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# LighTDiff:T-Diffusionを用いた内視鏡下低光強調手術

LighTDiff: Surgical Endoscopic Image Low-Light Enhancement with T-Diffusion ( http://arxiv.org/abs/2405.10550v1 )

ライセンス: Link先を確認
Tong Chen, Qingcheng Lyu, Long Bai, Erjian Guo, Huxin Gao, Xiaoxiao Yang, Hongliang Ren, Luping Zhou, (参考訳) 外科手術における内視鏡使用の進歩は、不適切な照明のような課題に直面している。 深層学習、特にDenoising Diffusion Probabilistic Model (DDPM)は、医療分野での低照度画像の強化を約束している。 しかし、DDPMは計算的に要求され、遅いため、医療応用は制限されている。 このギャップを埋めるため、LighTDiffと呼ばれる軽量DDPMを提案する。 低解像度画像を用いてグローバルな構造情報をキャプチャし、その後の復調ステップで細部を徐々に復元するT字型モデルアーキテクチャを採用している。 さらに、性能を維持しながらモデルサイズを大幅に削減する傾向にある。 パラメータを節約するために特定のダウンサンプリング操作を破棄することは、トレーニング中の不安定性と収束効率の低下につながるが、より安定したトレーニングとパフォーマンス向上のためのプラグアンドプレイモジュールであるTLU(Temporal Light Unit)を導入する。 TLUは、時間ステップとデノナイズドイメージの特徴を関連付け、デノナイズされたステップの時間的依存関係を確立し、デノナイズされた結果を改善する。 さらに,拡散モデルを用いて画像の復元を行ったところ,電位スペクトルシフトが認められた。 さらに、この問題を緩和するために、クロマ・バランサ(CB)を導入します。 我々のLighTDiffは、優れた計算効率で多くの競合LLIE法より優れている。

Advances in endoscopy use in surgeries face challenges like inadequate lighting. Deep learning, notably the Denoising Diffusion Probabilistic Model (DDPM), holds promise for low-light image enhancement in the medical field. However, DDPMs are computationally demanding and slow, limiting their practical medical applications. To bridge this gap, we propose a lightweight DDPM, dubbed LighTDiff. It adopts a T-shape model architecture to capture global structural information using low-resolution images and gradually recover the details in subsequent denoising steps. We further prone the model to significantly reduce the model size while retaining performance. While discarding certain downsampling operations to save parameters leads to instability and low efficiency in convergence during the training, we introduce a Temporal Light Unit (TLU), a plug-and-play module, for more stable training and better performance. TLU associates time steps with denoised image features, establishing temporal dependencies of the denoising steps and improving denoising outcomes. Moreover, while recovering images using the diffusion model, potential spectral shifts were noted. We further introduce a Chroma Balancer (CB) to mitigate this issue. Our LighTDiff outperforms many competitive LLIE methods with exceptional computational efficiency.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# 解釈可能で説明可能なAIのためのデータサイエンスの原則

Data Science Principles for Interpretable and Explainable AI ( http://arxiv.org/abs/2405.10552v1 )

ライセンス: Link先を確認
Kris Sankaran, (参考訳) アルゴリズムによる問題解決のための社会の能力は、かつてないほど大きくなった。 人工知能は、強力な抽象化、豊富なデータ、アクセス可能なソフトウェアの結果、これまで以上に多くのドメインに適用されている。 能力が拡大するにつれて、モデルが潜在的な影響を完全に理解せずにデプロイされることがしばしばあります。 解釈可能な対話型機械学習は、複雑なモデルをより透明でコントロールし、ユーザエージェンシーを強化することを目的としている。 本論は, この分野における文献の発達から重要な原則を合成するものである。 まず、ガラス箱と説明可能なアルゴリズムの区別など、解釈可能性について議論するための正確な語彙を導入する。 そして、古典的な統計学とデザインの原理、例えばパシモニーや相互作用の群れとの関係を探求する。 学習した埋め込み、統合された勾配、概念のボトルネックなど、基本的な説明可能性のテクニックは、簡単なケーススタディで説明されます。 また,解釈可能性のアプローチを客観的に評価するための基準についても検討した。 本稿では,対話型アルゴリズムシステムの設計において,オーディエンス目標を考えることの重要性を強調した。 最後に、オープンな課題の概要と、それに対応する上でのデータサイエンスが果たす役割について論じる。 すべての例を再現するコードは、https://go.wisc.edu/3k1ewe.orgにある。

Society's capacity for algorithmic problem-solving has never been greater. Artificial Intelligence is now applied across more domains than ever, a consequence of powerful abstractions, abundant data, and accessible software. As capabilities have expanded, so have risks, with models often deployed without fully understanding their potential impacts. Interpretable and interactive machine learning aims to make complex models more transparent and controllable, enhancing user agency. This review synthesizes key principles from the growing literature in this field. We first introduce precise vocabulary for discussing interpretability, like the distinction between glass box and explainable algorithms. We then explore connections to classical statistical and design principles, like parsimony and the gulfs of interaction. Basic explainability techniques -- including learned embeddings, integrated gradients, and concept bottlenecks -- are illustrated with a simple case study. We also review criteria for objectively evaluating interpretability approaches. Throughout, we underscore the importance of considering audience goals when designing interactive algorithmic systems. Finally, we outline open challenges and discuss the potential role of data science in addressing them. Code to reproduce all examples can be found at https://go.wisc.edu/3k1ewe.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# NeRO: ニューラルネットワークによる道路表面の再構築

NeRO: Neural Road Surface Reconstruction ( http://arxiv.org/abs/2405.10554v1 )

ライセンス: Link先を確認
Ruibo Wang, Song Zhang, Ping Huang, Donghai Zhang, Haoyu Chen, (参考訳) コンピュータビジョンとグラフィックスでは、道路面の正確な再構築は様々な応用、特に自律運転において重要である。 本稿では,MLP(Multi-Layer Perceptrons)フレームワークを利用して,入力世界座標x,yによる道路表面の高度,色,意味情報を再構築する手法を提案する。 我々のアプローチであるNeROは、MPPに基づく符号化技術を使用し、複雑な詳細の性能を大幅に改善し、トレーニング速度を高速化し、ニューラルネットワークのサイズを小さくする。 本手法の有効性は,特に道路条件の可視化,4次元ラベリング,セマンティックグルーピングを要求されるアプリケーションにおいて,道路表面をセマンティックスアプリケーションでレンダリングするための有望な方向を示す優れた性能によって実証される。

In computer vision and graphics, the accurate reconstruction of road surfaces is pivotal for various applications, especially in autonomous driving. This paper introduces a novel method leveraging the Multi-Layer Perceptrons (MLPs) framework to reconstruct road surfaces in height, color, and semantic information by input world coordinates x and y. Our approach NeRO uses encoding techniques based on MLPs, significantly improving the performance of the complex details, speeding up the training speed, and reducing neural network size. The effectiveness of this method is demonstrated through its superior performance, which indicates a promising direction for rendering road surfaces with semantics applications, particularly in applications demanding visualization of road conditions, 4D labeling, and semantic groupings.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# カーレス光の干渉によるフォック状態の光

Light with Even Fock states from Interference of Kerr-squeezed Light ( http://arxiv.org/abs/2405.10555v1 )

ライセンス: Link先を確認
Ziv Abelson, Shimshon Bar-Ad, (参考訳) 同一のKerr圧縮状態の破壊干渉による非古典光の発生を実証する。 奇妙なフォック状態に寄与する振幅の完全なペアワイズキャンセルは、非線形性の強さとは無関係に、フォック状態さえも光をもたらす。 この効果の観測性は干渉計の品質によってのみ制限される。 低非線形性限界では、偶数のみの状態は圧縮された真空状態に似ているが、非線形性が強い場合には偶数のみの振動が持続する。 この効果は入力Kerr-squeezed状態の最適相対位相からの偏差に対しても堅牢である。

We demonstrate the generation of non-classical light by destructive interference of identical Kerr squeezed states. Perfect pair-wise cancellation of amplitudes that contribute to odd Fock states results in light with only even Fock states, independent of the strength of the nonlinearity. The observability of this effect is only limited by the quality of the interferometer. In the low nonlinearity limit, the even-only state resembles a squeezed vacuum state, yet the even-odd oscillations persist when the nonlinearity is strong. The effect is also robust against deviations from the optimum relative phase of the input Kerr-squeezed states.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# インスタンスレベルのオブジェクトポース推定のための対応型手法における対称性の曖昧さの解消

Resolving Symmetry Ambiguity in Correspondence-based Methods for Instance-level Object Pose Estimation ( http://arxiv.org/abs/2405.10557v1 )

ライセンス: Link先を確認
Yongliang Lin, Yongzhi Su, Sandeep Inuganti, Yan Di, Naeem Ajilforoushan, Hanqing Yang, Yu Zhang, Jason Rambach, (参考訳) 単一のRGB画像からオブジェクトの6Dポーズを推定することは、対称オブジェクトを扱う際にさらに困難になる重要なタスクである。 近年のアプローチでは、画像画素と3次元物体表面頂点の1対1対応性を確立するのが一般的である。 しかし、1対1対応の利用は対称対象に対するあいまいさをもたらす。 そこで本研究では,一対多対応に基づく物体表面の頂点を符号化し,一対一対応の曖昧さを解消する対称性対応曲面符号化SymCodeを提案する。 また、PnP問題を解くことなく、6Dポーズパラメータを直接回帰する高速なエンドツーエンドネットワークであるSymNetも導入する。 我々は、T-LESSおよびIC-BINベンチマークにおいて、ほとんどの対称オブジェクトの高速なランタイムと同等の精度を実現したことを示す。 ソースコードは受理後に公開されます。

Estimating the 6D pose of an object from a single RGB image is a critical task that becomes additionally challenging when dealing with symmetric objects. Recent approaches typically establish one-to-one correspondences between image pixels and 3D object surface vertices. However, the utilization of one-to-one correspondences introduces ambiguity for symmetric objects. To address this, we propose SymCode, a symmetry-aware surface encoding that encodes the object surface vertices based on one-to-many correspondences, eliminating the problem of one-to-one correspondence ambiguity. We also introduce SymNet, a fast end-to-end network that directly regresses the 6D pose parameters without solving a PnP problem. We demonstrate faster runtime and comparable accuracy achieved by our method on the T-LESS and IC-BIN benchmarks of mostly symmetric objects. Our source code will be released upon acceptance.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# 軽量情報分割ネットワークによる赤外画像超解像

Infrared Image Super-Resolution via Lightweight Information Split Network ( http://arxiv.org/abs/2405.10561v1 )

ライセンス: Link先を確認
Shijie Liu, Kang Yan, Feiwei Qin, Changmiao Wang, Ruiquan Ge, Kai Zhang, Jie Huang, (参考訳) 単一画像超解像(Single Image Super- resolution, SR)は、分解能の低い高解像度画像から高解像度画像を再構成することを目的とした、確立された画素レベルの視覚タスクである。 SRにディープニューラルネットワークを活用することで達成された顕著な進歩にもかかわらず、既存のディープラーニングアーキテクチャの多くは、多数のレイヤを特徴としており、高い計算複雑性と実質的なメモリ要求につながっている。 これらの問題は赤外線画像SRの文脈で特に顕著になり、赤外線デバイスは厳しい記憶と計算の制約があることが多い。 これらの課題を軽減するため,LISN(Lightweight Information Split Network)と呼ばれる,新しい,効率的で高精度な単一赤外線画像SRモデルを導入する。 LISNは、浅部特徴抽出、深部特徴抽出、高密度特徴融合、高分解能赤外線画像再構成の4つの主要成分からなる。 このモデルにおける重要な革新は、深い特徴抽出のための軽量情報分割ブロック(LISB)の導入である。 LISBは、階層的特徴を抽出するシーケンシャルなプロセスを採用し、検討中の特徴の関連性に基づいて集約される。 チャネル分割とシフト操作を統合することで、LISBはSR性能の向上と軽量フレームワークの最適バランスを達成できる。 総合的な実験的評価により,提案したLISNは,SR品質とモデル複雑度の両方の観点から,現代の最先端手法よりも優れた性能を達成し,資源制約赤外線イメージングアプリケーションにおける実用的展開の有効性が確認された。

Single image super-resolution (SR) is an established pixel-level vision task aimed at reconstructing a high-resolution image from its degraded low-resolution counterpart. Despite the notable advancements achieved by leveraging deep neural networks for SR, most existing deep learning architectures feature an extensive number of layers, leading to high computational complexity and substantial memory demands. These issues become particularly pronounced in the context of infrared image SR, where infrared devices often have stringent storage and computational constraints. To mitigate these challenges, we introduce a novel, efficient, and precise single infrared image SR model, termed the Lightweight Information Split Network (LISN). The LISN comprises four main components: shallow feature extraction, deep feature extraction, dense feature fusion, and high-resolution infrared image reconstruction. A key innovation within this model is the introduction of the Lightweight Information Split Block (LISB) for deep feature extraction. The LISB employs a sequential process to extract hierarchical features, which are then aggregated based on the relevance of the features under consideration. By integrating channel splitting and shift operations, the LISB successfully strikes an optimal balance between enhanced SR performance and a lightweight framework. Comprehensive experimental evaluations reveal that the proposed LISN achieves superior performance over contemporary state-of-the-art methods in terms of both SR quality and model complexity, affirming its efficacy for practical deployment in resource-constrained infrared imaging applications.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# ニューラルネットワークによる関数補間とマニフォールドへの応用

Function Extrapolation with Neural Networks and Its Application for Manifolds ( http://arxiv.org/abs/2405.10563v1 )

ライセンス: Link先を確認
Guy Hay, Nir Sharon, (参考訳) 本稿では,個々のサンプルが他のドメインでのみ利用できる場合に,あるドメイン上の関数を正確に推定する問題に対処する。 この課題に対処するために、我々はニューラルネットワークを使用して、関数の事前知識を学習する。 さらに、問題を慎重に解析することにより、外挿領域上のエラーのバウンダリを取得し、セットアップの難易度を定量化する問題に対する条件番号を定義する。 変換器などの時系列予測を提供する他の機械学習手法と比較して、補間領域と外挿領域が一般的なサブドメインであり、特に多様体であるようなセットアップに適している。 さらに、構築によって損失関数が改善され、ニューラルネットワークの精度と堅牢性を高めるのに役立ちます。 我々は、外挿法と標準手法の総合的な数値テストと比較を行う。 その結果,様々なシナリオにおけるアプローチの有効性が示唆された。

This paper addresses the problem of accurately estimating a function on one domain when only its discrete samples are available on another domain. To answer this challenge, we utilize a neural network, which we train to incorporate prior knowledge of the function. In addition, by carefully analyzing the problem, we obtain a bound on the error over the extrapolation domain and define a condition number for this problem that quantifies the level of difficulty of the setup. Compared to other machine learning methods that provide time series prediction, such as transformers, our approach is suitable for setups where the interpolation and extrapolation regions are general subdomains and, in particular, manifolds. In addition, our construction leads to an improved loss function that helps us boost the accuracy and robustness of our neural network. We conduct comprehensive numerical tests and comparisons of our extrapolation versus standard methods. The results illustrate the effectiveness of our approach in various scenarios.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# 圧縮コヒーレント熱状態に対する二重Jaynes-Cummingsモデルと強度依存二重Jaynes-Cummingsモデルにおけるエンタングルメントダイナミクス

Entanglement dynamics in double Jaynes-Cummings model and intensity-dependent double Jaynes-Cummings model for squeezed coherent thermal states ( http://arxiv.org/abs/2405.10564v1 )

ライセンス: Link先を確認
Koushik Mandal, (参考訳) 本研究では, 原子-原子, 原子-磁場, 磁場などの異なるサブシステムの強度依存型二重Jaynes-Cummingsモデル (IDDJCM) と二重Jaynes-Cummingsモデル (DJCM) に対して, 圧縮コヒーレント熱状態における放射場との絡み合いのダイナミクスについて検討した。 圧縮光子と熱光子の双方が絡み合いのダイナミクスに及ぼす影響を観察した。 二重Jaynes-Cummingsモデルの主な特徴は、すべてのサブシステムで突然死の絡み合いが観測されることである。 イジング相互作用、単一光子交換相互作用、双極子-双極子相互作用などの様々な相互作用が絡み合いのダイナミクスに及ぼす影響について研究した。 各サブシステムに対して,デチューニング,カー非線形性が絡み合いダイナミクスに及ぼす影響について検討した。 相互作用パラメータの適切な選択、デチューニングとカー非線形性は、動的に絡み合う死を効果的に除去する。

In this work, the entanglement dynamics of different subsystems such as atom-atom, atom-field and field-field with radiation field in squeezed coherent thermal states for the intensity-dependent double Jaynes-Cummings model (IDDJCM) and double Jaynes-Cummings model (DJCM) are investigated. The effects of both squeezed photons and thermal photons on entanglement dynamics is observed. The main feature of the double Jaynes-Cummings model - entanglement sudden death is observed for every subsystem. The effects of various interactions such as Ising interaction, single photon exchange interaction and dipole-dipole interaction on entanglement dynamics are studied. The effects of detuning, Kerr-nonlinearity on the entanglement dynamics are investigated for every subsystem. It is noticed that proper choice of the interactions parameters, detuning and Kerr-nonlinearity effectively removes entanglement deaths from the dynamics.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# チームSamsung-RAL:2024 RoboDrive Challenge-Robust Map Segmentation Trackの技術レポート

Team Samsung-RAL: Technical Report for 2024 RoboDrive Challenge-Robust Map Segmentation Track ( http://arxiv.org/abs/2405.10567v1 )

ライセンス: Link先を確認
Xiaoshuai Hao, Yifan Yang, Hui Zhang, Mengchuan Wei, Yi Zhou, Haimei Zhao, Jing Zhang, (参考訳) 本稿では,RoboDrive Challenge Robust Map Segmentation Track(RoboDriveチャレンジロバストマップセグメンテーショントラック)への提出の技術的詳細について述べる。 ロバストマップセグメンテーショントラックは、様々な運転条件下でのBEVマップにおける複雑な運転シーン要素のセグメンテーションに焦点を当てている。 セマンティックマップセグメンテーションは、自律運転システムの計画とナビゲーションに不可欠な、豊富で正確な静的環境情報を提供する。 現在の手法は、例えば、晴れた昼の状況や完全に機能するセンサーなど、理想的な状況では優れているが、悪天候やセンサーの故障といった現実の課題に対するレジリエンスは依然として不明であり、システムの安全性に対する懸念が高まる。 本稿では,地図分割作業の堅牢性向上のためのいくつかの手法について検討した。 詳細は以下の通り。 1) 時間的情報を活用したロバスト性分析 2) 異なる背骨を用いたロバスト性解析,及び 3)腐敗の堅牢性を高めるためのデータ強化。 評価結果から,いくつかの重要な知見が得られた。 1) 時間融合モジュールは,地図分割モデルの堅牢性向上に有効である。 2 強いバックボーンは、腐敗の堅牢性を改善するのに有効である。 3)データ拡張手法は,地図分割モデルの堅牢性向上に有効である。 これらの新たな発見により、2024年のRoboDrive Challenge-Robust Map Segmentation Trackで有望な結果が得られた。

In this report, we describe the technical details of our submission to the 2024 RoboDrive Challenge Robust Map Segmentation Track. The Robust Map Segmentation track focuses on the segmentation of complex driving scene elements in BEV maps under varied driving conditions. Semantic map segmentation provides abundant and precise static environmental information crucial for autonomous driving systems' planning and navigation. While current methods excel in ideal circumstances, e.g., clear daytime conditions and fully functional sensors, their resilience to real-world challenges like adverse weather and sensor failures remains unclear, raising concerns about system safety. In this paper, we explored several methods to improve the robustness of the map segmentation task. The details are as follows: 1) Robustness analysis of utilizing temporal information; 2) Robustness analysis of utilizing different backbones; and 3) Data Augmentation to boost corruption robustness. Based on the evaluation results, we draw several important findings including 1) The temporal fusion module is effective in improving the robustness of the map segmentation model; 2) A strong backbone is effective for improving the corruption robustness; and 3) Some data augmentation methods are effective in improving the robustness of map segmentation models. These novel findings allowed us to achieve promising results in the 2024 RoboDrive Challenge-Robust Map Segmentation Track.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# 急性心筋梗塞における心筋分画とT2定量の同時学習

Simultaneous Deep Learning of Myocardium Segmentation and T2 Quantification for Acute Myocardial Infarction MRI ( http://arxiv.org/abs/2405.10570v1 )

ライセンス: Link先を確認
Yirong Zhou, Chengyan Wang, Mengtian Lu, Kunyuan Guo, Zi Wang, Dan Ruan, Rui Guo, Peijun Zhao, Jianhua Wang, Naiming Wu, Jianzhong Lin, Yinyin Chen, Hang Jin, Lianxin Xie, Lilan Wu, Liuhong Zhu, Jianjun Zhou, Congbo Cai, He Wang, Xiaobo Qu, (参考訳) 心臓磁気共鳴画像(MRI)解析では,同時心筋セグメンテーションとT2定量化が心筋の病態を評価する上で重要である。 既存の手法はしばしばこれらのタスクを個別に処理し、相乗的ポテンシャルを制限する。 そこで本研究では,Transformer と Convolutional Neural Network (CNN) を統合したデュアルタスクネットワークであるSQNetを提案する。 SQNetは、定量分析のためのT2-refine fusion decoderを備え、Transformerのグローバル機能を活用し、精度を高めるために複数のローカルリージョンを監督するセグメンテーションデコーダを備えている。 タイトな結合モジュールは、CNNとTransformerブランチの機能を調整してヒューズし、SQNetが心筋領域に集中できるようにする。 健康管理 (HC) と急性心筋梗塞 (AMI) の評価では, 最先端の方法 (87.7/87.9) と比較して, セグメンテーションダイススコア (89.3/89.2) が優れている。 T2量子化は強い線形相関(ピアソン係数: 0.84/0.93)をHC/AMIのラベル値で生成し、正確なマッピングを示す。 放射線学者による評価では、SQNetの最先端の画像品質スコア(セグメント化は4.60/4.58、T2量子化は4.32/4.42)は最先端の手法(セグメント化は4.50/4.44、T2量子化は3.59/4.37)よりも優れている。 これにより、SQNetは正確な同時セグメンテーションと定量化を提供し、AMIのような心臓病の診断を強化する。

In cardiac Magnetic Resonance Imaging (MRI) analysis, simultaneous myocardial segmentation and T2 quantification are crucial for assessing myocardial pathologies. Existing methods often address these tasks separately, limiting their synergistic potential. To address this, we propose SQNet, a dual-task network integrating Transformer and Convolutional Neural Network (CNN) components. SQNet features a T2-refine fusion decoder for quantitative analysis, leveraging global features from the Transformer, and a segmentation decoder with multiple local region supervision for enhanced accuracy. A tight coupling module aligns and fuses CNN and Transformer branch features, enabling SQNet to focus on myocardium regions. Evaluation on healthy controls (HC) and acute myocardial infarction patients (AMI) demonstrates superior segmentation dice scores (89.3/89.2) compared to state-of-the-art methods (87.7/87.9). T2 quantification yields strong linear correlations (Pearson coefficients: 0.84/0.93) with label values for HC/AMI, indicating accurate mapping. Radiologist evaluations confirm SQNet's superior image quality scores (4.60/4.58 for segmentation, 4.32/4.42 for T2 quantification) over state-of-the-art methods (4.50/4.44 for segmentation, 3.59/4.37 for T2 quantification). SQNet thus offers accurate simultaneous segmentation and quantification, enhancing cardiac disease diagnosis, such as AMI.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# エビデンス理論を用いた自動運転時の運転地図予測のための正確なトレーニングデータ

Accurate Training Data for Occupancy Map Prediction in Automated Driving Using Evidence Theory ( http://arxiv.org/abs/2405.10575v1 )

ライセンス: Link先を確認
Jonas Kälble, Sascha Wirges, Maxim Tatarchenko, Eddy Ilg, (参考訳) 自動走行には、周囲の地形に関する知識が基本的に必要である。 現代のアプローチでは、捕獲された画像のみを使用して、幾何学を表す占有マップを予測している。 これらのアプローチのトレーニングには、LiDARスキャナーの助けを借りて取得できる正確なデータが必要である。 我々は,現在のベンチマークやトレーニングデータセットでLiDARスキャンを占有格子マップに変換する手法が極めて低品質であることを示し,その結果,より正確な再構成を行うエビデンス理論を用いた新しいアプローチを提案する。 これらは質的にも量的にも大きなマージンで優れており、また有意義な不確実性の推定値も得られている。 本手法では, 積算地図を深度推定に変換し, 生のLiDAR値と比較すると, ヌステンスでは30%から52%, Waymoでは53%のMAE改善が得られた。 最後に, 改良された占有マップを用いて, 最先端の占有予測法を訓練し, nuScenes上でのMAEの25%向上を実証した。

Automated driving fundamentally requires knowledge about the surrounding geometry of the scene. Modern approaches use only captured images to predict occupancy maps that represent the geometry. Training these approaches requires accurate data that may be acquired with the help of LiDAR scanners. We show that the techniques used for current benchmarks and training datasets to convert LiDAR scans into occupancy grid maps yield very low quality, and subsequently present a novel approach using evidence theory that yields more accurate reconstructions. We demonstrate that these are superior by a large margin, both qualitatively and quantitatively, and that we additionally obtain meaningful uncertainty estimates. When converting the occupancy maps back to depth estimates and comparing them with the raw LiDAR measurements, our method yields a MAE improvement of 30% to 52% on nuScenes and 53% on Waymo over other occupancy ground-truth data. Finally, we use the improved occupancy maps to train a state-of-the-art occupancy prediction method and demonstrate that it improves the MAE by 25% on nuScenes.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# DuoSpaceNet: 3Dオブジェクト検出のためのバードアイビューとパースペクティブビュー表現の活用

DuoSpaceNet: Leveraging Both Bird's-Eye-View and Perspective View Representations for 3D Object Detection ( http://arxiv.org/abs/2405.10577v1 )

ライセンス: Link先を確認
Zhe Huang, Yizhe Zhao, Hao Xiao, Chenyan Wu, Lingting Ge, (参考訳) 近年の多視点カメラのみの3Dオブジェクト検出の進歩は、鳥眼視(BEV)の3D特徴の正確な再構築や、従来の2Dビュービュー(PV)の画像特徴に依存している。 どちらも独自の長所と短所を持っているが、「両方の世界の最高のもの」の恩恵を受けるために縫い合わせる方法を見つけた者は少ない。 この目的のために、2つの特徴表現を効果的に集約できるいくつかの有用な2次元空間融合戦略とともに、2次元空間(すなわち、BEVとPV)の知覚フレームワークを探索する。 我々の知る限り、提案手法であるDuoSpaceNetは、2つの異なる特徴空間を最初に活用し、最先端の3Dオブジェクト検出と、nuScenesデータセット上のBEVマップセグメンテーション結果を達成する。

Recent advances in multi-view camera-only 3D object detection either rely on an accurate reconstruction of bird's-eye-view (BEV) 3D features or on traditional 2D perspective view (PV) image features. While both have their own pros and cons, few have found a way to stitch them together in order to benefit from "the best of both worlds". To this end, we explore a duo space (i.e., BEV and PV) 3D perception framework, in conjunction with some useful duo space fusion strategies that allow effective aggregation of the two feature representations. To the best of our knowledge, our proposed method, DuoSpaceNet, is the first to leverage two distinct feature spaces and achieves the state-of-the-art 3D object detection and BEV map segmentation results on nuScenes dataset.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# 難解なクラック:対話型大言語モデルを用いたイディオム検出

A Hard Nut to Crack: Idiom Detection with Conversational Large Language Models ( http://arxiv.org/abs/2405.10579v1 )

ライセンス: Link先を確認
Francesca De Luca Fornaciari, Begoña Altuna, Itziar Gonzalez-Dios, Maite Melero, (参考訳) 本研究では,Large Language Models (LLM) を用いた慣用的な言語処理について検討する。 Idiomatic Language Test Suite IdioTSは,言語専門家が文レベルでの図形言語処理能力を評価するために設計した,難解な例のデータセットである。 英文中の慣用表現を検知してLLMを誘導するイディオム検出タスクに基づく包括的評価手法を提案する。 結果の徹底的な自動的手動評価と広範囲な誤差解析を行う。

In this work, we explore idiomatic language processing with Large Language Models (LLMs). We introduce the Idiomatic language Test Suite IdioTS, a new dataset of difficult examples specifically designed by language experts to assess the capabilities of LLMs to process figurative language at sentence level. We propose a comprehensive evaluation methodology based on an idiom detection task, where LLMs are prompted with detecting an idiomatic expression in a given English sentence. We present a thorough automatic and manual evaluation of the results and an extensive error analysis.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# ガウス過程を用いた時変システムの安全能動的学習

Future Aware Safe Active Learning of Time Varying Systems using Gaussian Processes ( http://arxiv.org/abs/2405.10581v1 )

ライセンス: Link先を確認
Markus Lange-Hegermann, Christoph Zimmer, (参考訳) 工学的応用に共通する安全制約のある高コストシステムの実験的探索は、挑戦的な試みである。 データ駆動型モデルは有望なソリューションを提供するが、必要なデータを取得することは高価であり、潜在的に安全ではない。 安全なアクティブな学習技術は不可欠であり、最小限の高価なデータポイントと高い安全性を持つ高品質なモデルの学習を可能にする。 本稿では,動的挙動によるドリフト,季節変化,複雑度に対処する,時間変動システムに適した安全な能動学習フレームワークを提案する。 タイムアウェアな平均二乗予測誤差(T-IMSPE)法は,時間領域においても情報収集を最適化し,現在および将来の状態に対する後方分散を最小化する。 実験の結果は、T-IMSPEの玩具や実世界の例によるモデル品質のアドバンテージを浮き彫りにした。 最先端のガウス過程はT-IMSPEと互換性がある。 我々の理論的な貢献は、ガウス過程のカーネル、ドメイン、重み付けがT-IMSPE、さらにはその非時間認識前のIMSPEに相応しいという明確な記述を含む。

Experimental exploration of high-cost systems with safety constraints, common in engineering applications, is a challenging endeavor. Data-driven models offer a promising solution, but acquiring the requisite data remains expensive and is potentially unsafe. Safe active learning techniques prove essential, enabling the learning of high-quality models with minimal expensive data points and high safety. This paper introduces a safe active learning framework tailored for time-varying systems, addressing drift, seasonal changes, and complexities due to dynamic behavior. The proposed Time-aware Integrated Mean Squared Prediction Error (T-IMSPE) method minimizes posterior variance over current and future states, optimizing information gathering also in the time domain. Empirical results highlight T-IMSPE's advantages in model quality through toy and real-world examples. State of the art Gaussian processes are compatible with T-IMSPE. Our theoretical contributions include a clear delineation which Gaussian process kernels, domains, and weighting measures are suitable for T-IMSPE and even beyond for its non-time aware predecessor IMSPE.
翻訳日:2024-05-20 16:52:18 公開日:2024-05-17
# 人気が高まるオンラインフォーラムの投資家感を考慮した株価予測のためのハイブリッドディープラーニングフレームワーク

A Hybrid Deep Learning Framework for Stock Price Prediction Considering the Investor Sentiment of Online Forum Enhanced by Popularity ( http://arxiv.org/abs/2405.10584v1 )

ライセンス: Link先を確認
Huiyu Li, Junhua Hu, (参考訳) 株価の予測は常に予測者にとって難しい課題だった。 最先端のディープラーニング技術を用いて、オンラインフォーラムから抽出した投資家の感情に基づく株価予測が可能になった。 株価予測のための新しいハイブリッドディープラーニングフレームワークを提案する。 このフレームワークは、XLNETモデルを利用してオンラインフォーラム上のユーザー投稿に伝達される感情を分析し、これらの感情をポスト人気要因と組み合わせて、日々のグループの感情を計算し、この情報をストック技術指標と統合し、株価予測のために改良されたBiLSTMハイウェイモデルに統合する。 中国株式市場の4銘柄に関する一連の比較実験を通じて、このハイブリッド・フレームワークが株価を効果的に予測できることが示されている。 本研究は、株価予測のための投資家のテキストビューの分析の必要性を明らかにする。

Stock price prediction has always been a difficult task for forecasters. Using cutting-edge deep learning techniques, stock price prediction based on investor sentiment extracted from online forums has become feasible. We propose a novel hybrid deep learning framework for predicting stock prices. The framework leverages the XLNET model to analyze the sentiment conveyed in user posts on online forums, combines these sentiments with the post popularity factor to compute daily group sentiments, and integrates this information with stock technical indicators into an improved BiLSTM-highway model for stock price prediction. Through a series of comparative experiments involving four stocks on the Chinese stock market, it is demonstrated that the hybrid framework effectively predicts stock prices. This study reveals the necessity of analyzing investors' textual views for stock price prediction.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# RDRec : LLMによるレコメンデーションのためのRationale蒸留

RDRec: Rationale Distillation for LLM-based Recommendation ( http://arxiv.org/abs/2405.10587v1 )

ライセンス: Link先を確認
Xinfeng Wang, Jin Cui, Yoshimi Suzuki, Fumiyo Fukumoto, (参考訳) 大規模言語モデル (LLM) に基づく推薦モデルでは, ユーザや項目をテキストのプロンプトでブリッジし, 意味的推論を効果的に行うことが注目されている。 しかしながら、ユーザー好みやアイテム属性などのインタラクションの背後にある理論的根拠を考慮し、レコメンデーションのためのLLMの推論能力を制限する方法はほとんどない。 本稿では,より大きな言語モデル (LM) が生成する有理性を学習するためのコンパクトモデルである,有理蒸留推薦器 (RDRec) を提案する。 ユーザやアイテムに関するレビューの合理性を活用することで、RDRecはレコメンデーションのためにプロファイルを明確に指定する。 実験により、RDRecはトップNとシーケンシャルレコメンデーションの両方で最先端(SOTA)のパフォーマンスを達成することが示された。 ソースコードはhttps://github.com/WangXFng/RDRec.comで公開されています。

Large language model (LLM)-based recommender models that bridge users and items through textual prompts for effective semantic reasoning have gained considerable attention. However, few methods consider the underlying rationales behind interactions, such as user preferences and item attributes, limiting the reasoning capability of LLMs for recommendations. This paper proposes a rationale distillation recommender (RDRec), a compact model designed to learn rationales generated by a larger language model (LM). By leveraging rationales from reviews related to users and items, RDRec remarkably specifies their profiles for recommendations. Experiments show that RDRec achieves state-of-the-art (SOTA) performance in both top-N and sequential recommendations. Our source code is released at https://github.com/WangXFng/RDRec.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# 補助的ポイント誘導に基づく点群カウントと位置決めの改善

Improving Point-based Crowd Counting and Localization Based on Auxiliary Point Guidance ( http://arxiv.org/abs/2405.10589v1 )

ライセンス: Link先を確認
I-Hsiang Chen, Wei-Ting Chen, Yu-Wei Liu, Ming-Hsuan Yang, Sy-Yen Kuo, (参考訳) クラウドカウントとローカライゼーションは、広範に応用されているため、コンピュータビジョンにおいてますます重要になっている。 ポイントベースの戦略は、群集カウントの手法で広く使われているが、それらは、マッチングプロセスを導く効果的な学習戦略が欠如している、という重大な課題に直面している。 この欠陥は、目標とする点に一致する点の提案が不安定になり、全体的なパフォーマンスに悪影響を及ぼす。 この問題に対処するため,提案手法における提案対象マッチングを安定化するための効果的な手法を提案する。 そこで我々は,提案手法の選択と最適化のための明確かつ効果的なガイダンスを提供するために,Auxiliary Point Guidance (APG)を提案する。 さらに,多種多様な群集シナリオにおける適応的特徴抽出を可能にするために,Implicit Feature Interpolation (IFI) を開発し,モデルの堅牢性と精度をさらに向上させる。 大規模な実験により,特に困難条件下での群集カウントと局所化性能の大幅な向上が示された。 ソースコードとトレーニングされたモデルは一般公開される予定だ。

Crowd counting and localization have become increasingly important in computer vision due to their wide-ranging applications. While point-based strategies have been widely used in crowd counting methods, they face a significant challenge, i.e., the lack of an effective learning strategy to guide the matching process. This deficiency leads to instability in matching point proposals to target points, adversely affecting overall performance. To address this issue, we introduce an effective approach to stabilize the proposal-target matching in point-based methods. We propose Auxiliary Point Guidance (APG) to provide clear and effective guidance for proposal selection and optimization, addressing the core issue of matching uncertainty. Additionally, we develop Implicit Feature Interpolation (IFI) to enable adaptive feature extraction in diverse crowd scenarios, further enhancing the model's robustness and accuracy. Extensive experiments demonstrate the effectiveness of our approach, showing significant improvements in crowd counting and localization performance, particularly under challenging conditions. The source codes and trained models will be made publicly available.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# GEOcc:不特定深度核融合と文脈自己スーパービジョンによる幾何学的拡張3次元占有ネットワーク

GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision ( http://arxiv.org/abs/2405.10591v1 )

ライセンス: Link先を確認
Xin Tan, Wenbin Wu, Zhiwei Zhang, Chaojie Fan, Yong Peng, Zhizhong Zhang, Yuan Xie, Lizhuang Ma, (参考訳) 近年の視覚中心の自律運転システムにおいて、3次元占有感は、サラウンドビューイメージを高密度3次元グリッド内の統合幾何学的および意味的表現に変換することで重要な役割を担っている。 しかしながら、現在のモデルでは、2D-3Dビュー変換段階での深度を正確にモデリングすることと、LiDARの監督不足による一般化可能性の欠如を克服することの2つの主要な課題に直面している。 本稿では,視覚のみのサラウンドビュー認識に適したGeometric-Enhanced OccupancyネットワークであるGEOccを提案する。 私たちのアプローチは3倍です。 1) 視線変換の密度とロバスト性を高めるために, 明示的リフトベース深度予測と暗黙的投射ベース変圧器を統合した。 2) マスクを用いたエンコーダデコーダアーキテクチャの細粒度意味予測への応用 3) 3次元占有特徴から2次元深度マップを再レンダリングし, 画像再構成損失を利用して, 粗いLiDAR地下構造以外の深度監視を行う, 関連段階における文脈認識型自己訓練損失関数の導入。 提案手法は,Occ3D-nuScenesデータセットにおいて,画像解像度が最小で,画像バックボーンが最大であり,現行モデルと比較しても画像バックボーンが最大であり,提案したコントリビューションにより3.3%改善したことを示す。 包括的実験はまた,本手法がベースラインや代替手法よりも一貫した優位性を示す。

3D occupancy perception holds a pivotal role in recent vision-centric autonomous driving systems by converting surround-view images into integrated geometric and semantic representations within dense 3D grids. Nevertheless, current models still encounter two main challenges: modeling depth accurately in the 2D-3D view transformation stage, and overcoming the lack of generalizability issues due to sparse LiDAR supervision. To address these issues, this paper presents GEOcc, a Geometric-Enhanced Occupancy network tailored for vision-only surround-view perception. Our approach is three-fold: 1) Integration of explicit lift-based depth prediction and implicit projection-based transformers for depth modeling, enhancing the density and robustness of view transformation. 2) Utilization of mask-based encoder-decoder architecture for fine-grained semantic predictions; 3) Adoption of context-aware self-training loss functions in the pertaining stage to complement LiDAR supervision, involving the re-rendering of 2D depth maps from 3D occupancy features and leveraging image reconstruction loss to obtain denser depth supervision besides sparse LiDAR ground-truths. Our approach achieves State-Of-The-Art performance on the Occ3D-nuScenes dataset with the least image resolution needed and the most weightless image backbone compared with current models, marking an improvement of 3.3% due to our proposed contributions. Comprehensive experimentation also demonstrates the consistent superiority of our method over baselines and alternative approaches.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# アンサンブルN表現性領域における一粒子還元密度行列汎関数理論の変分最小化スキーム

Variational minimization scheme for the one-particle reduced density matrix functional theory in the ensemble N-representability domain ( http://arxiv.org/abs/2405.10593v1 )

ライセンス: Link先を確認
Matthieu Vladaj, Quentin Marécat, Bruno Senjean, Matthieu Saubanère, (参考訳) 1粒子還元密度行列 (1-RDM) 函数論は、電子密度を基本変数としてではなく1-RDMを用いる密度汎関数理論 (DFT) に代わる有望な理論である。 しかし、コーン=シャムスキームの欠如や純粋な$N$-representability条件の複雑さといった長年にわたる課題は、その野放な利用を妨げる。 幸いなことに、1-RDMのほとんど全ての関数が実際にはすべての相関系でうまく機能しない自然な軌道汎函数であるように、自然軌道基底から導かれるアンサンブル$N$-表現性条件は知られ、自明である。 本研究では、1-RDMの自然な軌道表現に制限されないアンサンブル$N$-representable領域における変分最小化スキームを提案する。 1-RDMの対角部と対角部と対角部に最小化を分割することで、軌道占有の汎函数の発達への道を開くことが示され、これは化学におけるサイト占有機能理論の一般化の課題である。 M\"uller"とT\"ows-Pastor関数を用いた一様ハバードモデルおよびM\"uller関数を用いた二水素分子を用いた実験を行った。

The one-particle reduced density-matrix (1-RDM) functional theory is a promising alternative to density-functional theory (DFT) that uses the 1-RDM rather than the electronic density as a basic variable. However, long-standing challenges such as the lack of Kohn--Sham scheme and the complexity of the pure $N$-representability conditions are still impeding its wild utilization. Fortunately, ensemble $N$-representability conditions derived in the natural orbital basis are known and trivial, such that almost every functionals of the 1-RDM are actually natural orbital functionals which do not perform well for all the correlation regimes. In this work, we propose a variational minimization scheme in the ensemble $N$-representable domain that is not restricted to the natural orbital representation of the 1-RDM. We show that splitting the minimization into the diagonal and off-diagonal part of the 1-RDM can open the way toward the development of functionals of the orbital occupations, which remains a challenge for the generalization of site-occupation functional theory in chemistry. Our approach is tested on the uniform Hubbard model using the M\"uller and the T\"ows--Pastor functionals, as well as on the dihydrogen molecule using the M\"uller functional.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# UniCL: 大規模時系列モデルのためのユニバーサルコントラスト学習フレームワーク

UniCL: A Universal Contrastive Learning Framework for Large Time Series Models ( http://arxiv.org/abs/2405.10597v1 )

ライセンス: Link先を確認
Jiawei Li, Jingshu Peng, Haoyang Li, Lei Chen, (参考訳) 時系列分析は、ファイナンスから医療まで、予測や分類といった様々なタスクを含む様々な重要なアプリケーションにおいて重要な役割を担っている。 高次元性やノイズなどの時系列データの本質的な複雑さに対処するため、従来の教師付き学習手法では、まず各タスクにおける時系列データの広範なラベルを注釈付けする。 対照的に、事前訓練された基礎モデルは、ラベルのないデータを利用して一般的な時系列パターンをキャプチャすることで、有望な代替手段を提供する。 しかしながら、そのようなモデルを事前訓練する既存のアプローチは、事前定義された厳密な拡張操作とドメイン固有のデータトレーニングを使用することによって、通常、高バイアスと低汎用性の問題に悩まされる。 この制限を克服するために,ドメイン間データセット間の時系列基盤モデルの事前学習を目的とした,普遍的でスケーラブルなコントラスト学習フレームワークUniCLを紹介する。 具体的には、スペクトル情報を活用することにより、パターン保存、多様性、低バイアスの時系列データを生成するために、統一的で訓練可能な時系列拡張操作を提案する。 さらに、さまざまな長さのデータセットを扱えるスケーラブルな拡張アルゴリズムを導入し、ドメイン間の事前トレーニングを容易にする。 11領域にわたる2つのベンチマークデータセットの大規模な実験により、UniCLの有効性が検証され、様々な分野にわたる時系列解析に高い一般化が示された。

Time-series analysis plays a pivotal role across a range of critical applications, from finance to healthcare, which involves various tasks, such as forecasting and classification. To handle the inherent complexities of time-series data, such as high dimensionality and noise, traditional supervised learning methods first annotate extensive labels for time-series data in each task, which is very costly and impractical in real-world applications. In contrast, pre-trained foundation models offer a promising alternative by leveraging unlabeled data to capture general time series patterns, which can then be fine-tuned for specific tasks. However, existing approaches to pre-training such models typically suffer from high-bias and low-generality issues due to the use of predefined and rigid augmentation operations and domain-specific data training. To overcome these limitations, this paper introduces UniCL, a universal and scalable contrastive learning framework designed for pretraining time-series foundation models across cross-domain datasets. Specifically, we propose a unified and trainable time-series augmentation operation to generate pattern-preserved, diverse, and low-bias time-series data by leveraging spectral information. Besides, we introduce a scalable augmentation algorithm capable of handling datasets with varying lengths, facilitating cross-domain pretraining. Extensive experiments on two benchmark datasets across eleven domains validate the effectiveness of UniCL, demonstrating its high generalization on time-series analysis across various fields.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# 逆階層的誘導によるオブジェクト中心表現の学習

Learning Object-Centric Representation via Reverse Hierarchy Guidance ( http://arxiv.org/abs/2405.10598v1 )

ライセンス: Link先を確認
Junhong Zou, Xiangyu Zhu, Zhaoxiang Zhang, Zhen Lei, (参考訳) OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンにおける個々のオブジェクトを識別できるようにすることを目的としている。 ほとんどの既存のOCLモデルは、自動エンコード構造を採用し、特別に設計された帰納的バイアスを通じて視覚的なシーンを分解することを学ぶ。 リバース階層理論は、人間の視覚が下位レベルのニューロンに帰還し、より詳細な情報を得るトップダウン視覚経路を通じて知覚誤差を補正することを提案し、トレーニングと推論プロセスにおいて異なる方法で機能するトップダウン経路を導入するリバース階層誘導ネットワーク(RHGNet)を提案する。 この経路は、トレーニング中にトップレベルのオブジェクト表現でボトムレベルの特徴を導くだけでなく、ボトムレベルの特徴から推論中に知覚へと情報を包含することを可能にする。 我々のモデルは、CLEVR、CLEVRTex、MOVi-Cなどの一般的なデータセット上でのSOTA性能を実現する。 実験により,本手法は小型物体の発見を促進するとともに,複雑な現実世界のシーンによく応用できることを示した。 コードはhttps://anonymous.4open.science/r/RHGNet-6CEFで入手できる。

Object-Centric Learning (OCL) seeks to enable Neural Networks to identify individual objects in visual scenes, which is crucial for interpretable visual comprehension and reasoning. Most existing OCL models adopt auto-encoding structures and learn to decompose visual scenes through specially designed inductive bias, which causes the model to miss small objects during reconstruction. Reverse hierarchy theory proposes that human vision corrects perception errors through a top-down visual pathway that returns to bottom-level neurons and acquires more detailed information, inspired by which we propose Reverse Hierarchy Guided Network (RHGNet) that introduces a top-down pathway that works in different ways in the training and inference processes. This pathway allows for guiding bottom-level features with top-level object representations during training, as well as encompassing information from bottom-level features into perception during inference. Our model achieves SOTA performance on several commonly used datasets including CLEVR, CLEVRTex and MOVi-C. We demonstrate with experiments that our method promotes the discovery of small objects and also generalizes well on complex real-world scenes. Code will be available at https://anonymous.4open.science/r/RHGNet-6CEF.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# アンタングルバッテリを用いた第2法則

Second Law of Entanglement Manipulation with Entanglement Battery ( http://arxiv.org/abs/2405.10599v1 )

ライセンス: Link先を確認
Ray Ganardi, Tulja Varun Kondra, Nelly H. Y. Ng, Alexander Streltsov, (参考訳) 量子情報科学の始まり以来の中心的な疑問は、2つの遠い当事者が1つの絡み合った状態を別の状態に変換する方法である。 これらの疑問に対する答えは、量子鍵分布や量子テレポーテーションのようなタスクのパフォーマンスを最適化することを可能にする。 絡み合った状態変換は漸近的に可逆的に実行され、古典的熱力学におけるカルノーサイクルの可逆性を反映していると推測されている。 これまでのところ、この予想の確定的な証明は失われているが、以前の研究では様々な環境での可逆的絡み合いの操作は除外されていた。 本研究では, 量子状態変換を容易にする補助量子システムである絡みバッテリの概念を, 絡みバッテリの純損失を伴わずに検討する。 我々は、絡み合った状態の可逆的な操作が、絡み合ったバッテリーで強化された場合、局所的な操作によって達成可能であることを証明した。 この設定では、2つの遠いパーティは、任意の絡み合った状態を等価な絡み合いの別の状態に変換することができる。 漸近変換の速度は、関連する量子状態内の絡み合いの比として定量的に表される。 異なる絡み合い量化器は、状態変換を規定する独自の原則を生み出し、効果的に絡み合い操作の「第二の法則」の多様な表象を構成する。 提案手法は, 絡み合った状態の可逆的操作に関する長年にわたるオープンな問題に対する解法を提供するとともに, 2つ以上のパーティを含む絡み合ったシステムや, 量子熱力学を含む他の量子資源理論にも適用可能である。

A central question since the beginning of quantum information science is how two distant parties can convert one entangled state into another. Answers to these questions enable us to optimize the performance of tasks such as quantum key distribution and quantum teleportation, since certain entangled states are more useful than others for these applications. It has been conjectured that entangled state transformations could be executed reversibly in an asymptotic regime, mirroring the reversible nature of Carnot cycles in classical thermodynamics. While a conclusive proof of this conjecture has been missing so far, earlier studies excluded reversible entanglement manipulation in various settings. In this work, we investigate the concept of an entanglement battery, an auxiliary quantum system that facilitates quantum state transformations without a net loss of entanglement. We establish that reversible manipulation of entangled states is achievable through local operations when augmented with an entanglement battery. In this setting, two distant parties can convert any entangled state into another of equivalent entanglement. The rate of asymptotic transformation is quantitatively expressed as a ratio of the entanglement present within the quantum states involved. Different entanglement quantifiers give rise to unique principles governing state transformations, effectively constituting diverse manifestations of a "second law" of entanglement manipulation. Our methods provide a solution to the long-standing open question regarding the reversible manipulation of entangled states and are also applicable to entangled systems involving more than two parties, and to other quantum resource theories, including quantum thermodynamics.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# インセンス準単色レーザー光の高効率波長2倍化によるノイズ抑制の観測

Observation of Noise Suppression during High-Efficiency Wavelength Doubling of Intense Quasi-Monochromatic Laser Light ( http://arxiv.org/abs/2405.10603v1 )

ライセンス: Link先を確認
Julian Gurs, Mikhail Korobko, Christian Darsow-Fromm, Sebastian Steinlechner, Roman Schnabel, (参考訳) 超安定で準単色レーザーは、例えば重力波の観測や光時計の時間維持のための高精度干渉測定の基礎を形成する。 光周波数変換は、光学材料が最低吸収率と最低機械的損失率を持つ波長へのアクセスを可能にする。 ここでは1064nmから2128nmに変換した場合の相対強度雑音(技術的起源)の25%低減について報告する。 新しい波長は、重力波の検出やその他の超高精度の実験を改善する高いポテンシャルを持つ。 この結果は非線形光学過程のダイナミクスをよりよく理解し、光センシングやメトロジーにおけるレーザー源の安定化に大きな可能性を秘めている。

Ultra-stable, quasi-monochromatic laser light forms the basis for high-precision interferometric measurements, e.g. for observing gravitational waves and for time keeping with optical clocks. Optical frequency conversion enables access to wavelengths at which optical materials have the lowest absorption and the lowest mechanical loss. Here we report a 25 % reduction in relative intensity noise (of technical origin) when converting 1064 nm to 2128 nm for powers far above parametric oscillation threshold. The new wavelength has high potential for improving gravitational wave detection and other ultra-high-precision experiments as well. Our results provide a better understanding of the dynamics of nonlinear optical processes and have great potential for the stabilisation of laser sources in optical sensing and metrology.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# ECATS: 記述可能な概念に基づく時系列の異常検出

ECATS: Explainable-by-design concept-based anomaly detection for time series ( http://arxiv.org/abs/2405.10608v1 )

ライセンス: Link先を確認
Irene Ferfoglia, Gaia Saveri, Laura Nenzi, Luca Bortolussi, (参考訳) 時系列の深層学習手法は、異常検出を含む予測タスクと分類タスクの両方において、すでに優れた性能を達成している。 しかし、CPS(Cyber Physical Systems)に固有の複雑さは、説明可能性の方法に関して問題を引き起こす。 このような解釈可能性の欠如を克服するために,概念をSTL(Signal Temporal Logic)公式として表現する概念に基づくニューロシンボリックアーキテクチャであるECATSを提案する。 STLのためのカーネルベースの手法を利用することで、概念埋め込みはクロスアテンション機構を通じて教師なしの方法で学習される。 このネットワークは、これらの概念の埋め込みを通じてクラス予測を行い、各入力に対して意味のある説明を自然に抽出することができる。 簡単なCPSベースのデータセットを用いて予備実験を行った結果,局所的な解釈性を確保しつつ,優れた分類性能が得られることがわかった。

Deep learning methods for time series have already reached excellent performances in both prediction and classification tasks, including anomaly detection. However, the complexity inherent in Cyber Physical Systems (CPS) creates a challenge when it comes to explainability methods. To overcome this inherent lack of interpretability, we propose ECATS, a concept-based neuro-symbolic architecture where concepts are represented as Signal Temporal Logic (STL) formulae. Leveraging kernel-based methods for STL, concept embeddings are learnt in an unsupervised manner through a cross-attention mechanism. The network makes class predictions through these concept embeddings, allowing for a meaningful explanation to be naturally extracted for each input. Our preliminary experiments with a simple CPS-based dataset show that our model is able to achieve great classification performance while ensuring local interpretability.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# ビジョンランゲージ事前学習モデルによるビデオオブジェクトセグメンテーションの参照運転

Driving Referring Video Object Segmentation with Vision-Language Pre-trained Models ( http://arxiv.org/abs/2405.10610v1 )

ライセンス: Link先を確認
Zikun Zhou, Wentao Xiong, Li Zhou, Xin Li, Zhenyu He, Yaowei Wang, (参考訳) Referring Video Object Segmentation (RVOS) の要点は、抽象言語概念とピクセルレベルでの動的視覚的内容とを関連付けるために、密集したテキストとビデオの関係をモデル化することにある。 現在のRVOSメソッドは一般的に、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。 画像とテキストは結合しない特徴空間にマッピングされるため、視覚-言語関係モデリング(VL)をスクラッチから学ぶという困難な課題に直面している。 VLP(Vision-Language Pre-trained)モデルの成功に気付き、協調したVL特徴空間に基づいてRVOSの相関モデルを学ぶことを提案する。 それでも、VLPモデルをRVOSに転送するのは、事前トレーニングタスク(画像/領域レベルの予測)とRVOSタスク(ビデオのピクセルレベルの予測)の間にかなりのギャップがあるため、非常に難しい作業である。 本稿では,VLP-RVOS というフレームワークを導入し,この移行問題に対処する。 まず、画素レベルの予測のために事前訓練された表現を適応させるだけでなく、視覚エンコーダに時間的手がかりをモデル化する時間的対応型プロンプトチューニング手法を提案する。 さらに,包括的VL理解のための特徴抽出における多段階VL関係モデリングを提案する。 さらに、時空間推論のための立方体フレームアテンション機構をカスタマイズする。 大規模な実験により,本手法は最先端のアルゴリズムより優れ,強力な一般化能力を示すことが示された。

The crux of Referring Video Object Segmentation (RVOS) lies in modeling dense text-video relations to associate abstract linguistic concepts with dynamic visual contents at pixel-level. Current RVOS methods typically use vision and language models pre-trained independently as backbones. As images and texts are mapped to uncoupled feature spaces, they face the arduous task of learning Vision-Language~(VL) relation modeling from scratch. Witnessing the success of Vision-Language Pre-trained (VLP) models, we propose to learn relation modeling for RVOS based on their aligned VL feature space. Nevertheless, transferring VLP models to RVOS is a deceptively challenging task due to the substantial gap between the pre-training task (image/region-level prediction) and the RVOS task (pixel-level prediction in videos). In this work, we introduce a framework named VLP-RVOS to address this transfer challenge. We first propose a temporal-aware prompt-tuning method, which not only adapts pre-trained representations for pixel-level prediction but also empowers the vision encoder to model temporal clues. We further propose to perform multi-stage VL relation modeling while and after feature extraction for comprehensive VL understanding. Besides, we customize a cube-frame attention mechanism for spatial-temporal reasoning. Extensive experiments demonstrate that our method outperforms state-of-the-art algorithms and exhibits strong generalization abilities.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# ディープニューラルネットワーク検証のための証明証明チェッカー

A Certified Proof Checker for Deep Neural Network Verification ( http://arxiv.org/abs/2405.10611v1 )

ライセンス: Link先を確認
Remi Desmartin, Omri Isac, Ekaterina Komendantskaya, Kathrin Stark, Grant Passmore, Guy Katz, (参考訳) ディープニューラルネットワーク(DNN)の検証の最近の進歩は、安全クリティカルなものを含む多くのアプリケーション領域で、DNN検証技術を広く活用するための道を開いた。 DNN検証プログラムは、それ自体がエラーや不正確性に影響を受けやすい複雑なプログラムである。 この問題に対処するための顕著な試みの1つは、独立したアルゴリズム認証(保護チェック)の対象となる結果の証明を生成する能力を備えたDNN検証の強化である。 証明生成と証明チェックの定式化は、最先端のマラブーDNN検証器の上にすでに存在する。 Marabouの証明チェックアルゴリズムのネイティブ実装はC++で行われ、コードに対する信頼の問題が提起された(例えば、浮動小数点演算の精度や実装の健全性の保証)。 本稿では,産業用関数型言語と証明器であるImandraにおけるMarabou検定アルゴリズムの代替実装について述べる。

Recent advances in the verification of deep neural networks (DNNs) have opened the way for broader usage of DNN verification technology in many application areas, including safety-critical ones. DNN verifiers are themselves complex programs that have been shown to be susceptible to errors and imprecisions; this in turn has raised the question of trust in DNN verifiers. One prominent attempt to address this issue is enhancing DNN verifiers with the capability of producing proofs of their results that are subject to independent algorithmic certification (proof checking). Formulations of proof production and proof checking already exist on top of the state-of-the-art Marabou DNN verifier. The native implementation of the proof checking algorithm for Marabou was done in C++ and itself raised the question of trust in the code (e.g., in the precision of floating point calculations or guarantees for implementation soundness). Here, we present an alternative implementation of the Marabou proof checking algorithm in Imandra -- an industrial functional programming language and prover -- that allows us to obtain an implementation with formal guarantees, including proofs of mathematical results underlying the algorithm, such as the use of the Farkas lemma.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# すべてのプロンプトが安全ではない:事前訓練されたビジョントランスフォーマーに対する切り替え可能なバックドアアタック

Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision Transformers ( http://arxiv.org/abs/2405.10612v1 )

ライセンス: Link先を確認
Sheng Yang, Jiawang Bai, Kuofeng Gao, Yong Yang, Yiming Li, Shu-tao Xia, (参考訳) ビジョントランスフォーマーの力を考えると、事前学習と刺激という新しい学習パラダイムは、下流の視覚認識タスクに対処する上で、より効率的かつ効果的である。 本稿では,バックドア攻撃の観点から,このようなパラダイムに対する新たなセキュリティ脅威を特定する。 具体的には、この作業でスイッチトークンと呼ばれる追加のプロンプトトークンは、バックドアモードをオンにすることができる。 バックドアモード下では、特定のトリガーがモデルにターゲットクラスの予測を強制することができる。 悪意のある動作をアクティベートできず、良心的なモードで検出できないため、クラウドAPIのユーザには深刻なリスクが伴うため、攻撃は非常にステルス的になる。 事前訓練されたモデルを攻撃するため、SWARMと呼ばれる攻撃はトリガを学習し、スイッチトークンを含むトークンをプロンプトする。 それらはクリーンな損失によって最適化され、モデルは常にトリガーの現在まで正常に動作し、バックドアの損失はスイッチのオン時にトリガーによってアクティベートされる。 さらに, 切替トークンがクリーンサンプルに与える影響を低減するため, クロスモード式蒸留法を応用した。 多様な視覚認識タスクの実験は、切り替え可能なバックドアアタック、すなわち95%以上のアタック成功率を達成し、検出および除去が困難であることを示す。 私たちのコードはhttps://github.com/20000yshust/SWARM.comから入手可能です。

Given the power of vision transformers, a new learning paradigm, pre-training and then prompting, makes it more efficient and effective to address downstream visual recognition tasks. In this paper, we identify a novel security threat towards such a paradigm from the perspective of backdoor attacks. Specifically, an extra prompt token, called the switch token in this work, can turn the backdoor mode on, i.e., converting a benign model into a backdoored one. Once under the backdoor mode, a specific trigger can force the model to predict a target class. It poses a severe risk to the users of cloud API, since the malicious behavior can not be activated and detected under the benign mode, thus making the attack very stealthy. To attack a pre-trained model, our proposed attack, named SWARM, learns a trigger and prompt tokens including a switch token. They are optimized with the clean loss which encourages the model always behaves normally even the trigger presents, and the backdoor loss that ensures the backdoor can be activated by the trigger when the switch is on. Besides, we utilize the cross-mode feature distillation to reduce the effect of the switch token on clean samples. The experiments on diverse visual recognition tasks confirm the success of our switchable backdoor attack, i.e., achieving 95%+ attack success rate, and also being hard to be detected and removed. Our code is available at https://github.com/20000yshust/SWARM.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# ベイズ最適化による大規模言語モデルの特徴量に基づく低ランク圧縮

Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization ( http://arxiv.org/abs/2405.10616v1 )

ライセンス: Link先を確認
Yixin Ji, Yang Xiang, Juntao Li, Wei Chen, Zhongyi Liu, Kehai Chen, Min Zhang, (参考訳) 近年,大規模言語モデル (LLM) が自然言語処理の進歩を促している。 それでも、その成長スケールは計算負担を増大させ、効率と性能のバランスを必要とする。 低ランク圧縮は有望な手法であり、重量行列を2つの低ランク行列の積に分解することで非必須パラメータを削減する。 しかし、LLMにおけるその応用は広く研究されていない。 低ランク圧縮の鍵は、低ランク因子化と低ランク次元割り当てにある。 LLMにおける低ランク圧縮の課題に対処するため,大型モデルの低ランク特性に関する実証的研究を行った。 LLMに適した低ランク圧縮法を提案する。 このアプローチは、プール化共分散行列による特徴分布の正確な推定と、低ランク次元を割り振るためのベイズ最適化戦略を含む。 LLaMA-2モデルに対する実験により,本手法は,モデル性能を同じ圧縮比で維持する上で,既存の強い構造化プルーニングおよび低ランク圧縮技術より優れることを示した。

In recent years, large language models (LLMs) have driven advances in natural language processing. Still, their growing scale has increased the computational burden, necessitating a balance between efficiency and performance. Low-rank compression, a promising technique, reduces non-essential parameters by decomposing weight matrices into products of two low-rank matrices. Yet, its application in LLMs has not been extensively studied. The key to low-rank compression lies in low-rank factorization and low-rank dimensions allocation. To address the challenges of low-rank compression in LLMs, we conduct empirical research on the low-rank characteristics of large models. We propose a low-rank compression method suitable for LLMs. This approach involves precise estimation of feature distributions through pooled covariance matrices and a Bayesian optimization strategy for allocating low-rank dimensions. Experiments on the LLaMA-2 models demonstrate that our method outperforms existing strong structured pruning and low-rank compression techniques in maintaining model performance at the same compression ratio.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# ADMMによる分散イベントベース学習

Distributed Event-Based Learning via ADMM ( http://arxiv.org/abs/2405.10618v1 )

ライセンス: Link先を確認
Guner Dilsad Er, Sebastian Trimpe, Michael Muehlebach, (参考訳) エージェントがネットワーク上で情報を交換することで,グローバルな目的関数を最小限に抑える分散学習問題を考える。 私たちのアプローチには2つの異なる特徴があります。 一 必要なときにのみ通信をトリガーすることにより通信を著しく減らすこと。 (ii)異なるエージェント間のデータ分配に非依存である。 したがって、エージェントの局所的なデータ分散が任意に異なる場合でも収束を保証することができる。 我々は,アルゴリズムの収束率を分析し,凸条件下での加速収束率を導出する。 また,通信損失の影響を特徴付けるとともに,通信障害に対してアルゴリズムが堅牢であることを示す。 本稿では,分散LASSO問題による数値結果と,MNISTおよびCIFAR-10データセット上での分散学習タスクについて述べる。 この実験は、イベントベースのコミュニケーション戦略により、50%以上の通信節約を図り、異種データ配信に対するレジリエンスを示し、我々のアプローチがFedAvg、FedProx、FedADMMといった一般的なベースラインを上回ることを強調した。

We consider a distributed learning problem, where agents minimize a global objective function by exchanging information over a network. Our approach has two distinct features: (i) It substantially reduces communication by triggering communication only when necessary, and (ii) it is agnostic to the data-distribution among the different agents. We can therefore guarantee convergence even if the local data-distributions of the agents are arbitrarily distinct. We analyze the convergence rate of the algorithm and derive accelerated convergence rates in a convex setting. We also characterize the effect of communication drops and demonstrate that our algorithm is robust to communication failures. The article concludes by presenting numerical results from a distributed LASSO problem, and distributed learning tasks on MNIST and CIFAR-10 datasets. The experiments underline communication savings of 50% or more due to the event-based communication strategy, show resilience towards heterogeneous data-distributions, and highlight that our approach outperforms common baselines such as FedAvg, FedProx, and FedADMM.
翻訳日:2024-05-20 16:42:27 公開日:2024-05-17
# MC-GPT:メモリマップと推論チェーンによる視覚・言語ナビゲーションの強化

MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains ( http://arxiv.org/abs/2405.10620v1 )

ライセンス: Link先を確認
Zhaohuan Zhan, Lisha Yu, Sijie Yu, Guang Tan, (参考訳) Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。 学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。 近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。 しかし、既存のLCMベースの手法は、メモリ構築とナビゲーション戦略の多様性の制限に直面している。 これらの課題に対処するために,我々は一連の手法を提案する。 まず、ナビゲーション履歴を保存し、視点、オブジェクト、空間関係に関する情報を保持するトポロジカルマップを維持する方法を提案する。 この地図はグローバルなアクション空間としても機能する。 さらに、人間のナビゲーション例を利用してナビゲーション戦略の多様性を向上する、思考のナビゲーションチェーンを提案する。 最後に、ナビゲーションメモリと戦略を認識および行動予測モジュールと統合するパイプラインを確立する。 ReVERIEとR2Rデータセットを用いた実験結果から,本手法はLLMのナビゲーション能力を効果的に向上し,ナビゲーション推論の解釈性を向上させることが示された。

In the Vision-and-Language Navigation (VLN) task, the agent is required to navigate to a destination following a natural language instruction. While learning-based approaches have been a major solution to the task, they suffer from high training costs and lack of interpretability. Recently, Large Language Models (LLMs) have emerged as a promising tool for VLN due to their strong generalization capabilities. However, existing LLM-based methods face limitations in memory construction and diversity of navigation strategies. To address these challenges, we propose a suite of techniques. Firstly, we introduce a method to maintain a topological map that stores navigation history, retaining information about viewpoints, objects, and their spatial relationships. This map also serves as a global action space. Additionally, we present a Navigation Chain of Thoughts module, leveraging human navigation examples to enrich navigation strategy diversity. Finally, we establish a pipeline that integrates navigational memory and strategies with perception and action prediction modules. Experimental results on the REVERIE and R2R datasets show that our method effectively enhances the navigation ability of the LLM and improves the interpretability of navigation reasoning.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 時間的知識グラフ推論のための歴史的イベント構造化

Historically Relevant Event Structuring for Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2405.10621v1 )

ライセンス: Link先を確認
Jinchuan Zhang, Bei Hui, Chong Mu, Ming Sun, Ling Tian, (参考訳) 時間的知識グラフ(TKG)推論は、タイムライン上に配布されたスナップショット内の履歴情報を通じてイベントを予測することに焦点を当てている。 現存する研究は主にTKGの歴史を活用するための2つの視点に焦点をあてており、その中には最近のスナップショットの進化や、世界的歴史的事実間の相関が記録されている。 達成された大きな成果にもかかわらず、これらのモデルは(1)最近のスナップショットにおける多重粒度相互作用の影響を調査し、(2)歴史全体、特に将来に大きな影響を及ぼす出来事について、有意なリンクの表現的意味論を活用することには及ばない。 これらの不適切な状況は、歴史的依存関係と将来の傾向を徹底的に反映する表現能力を制限する。 これらの欠点を克服するために、革新的な TKG 推論手法を \textbf{His}torically \textbf{R}elevant \textbf{E}vents \textbf{S}tructuring$\mathsf{HisRES}$ に対して提案する。 具体的には、$\mathsf{HisRES}$は、最近のスナップショットの構造的および時間的依存関係をキャプチャする多粒度進化的エンコーダや、履歴全体からクエリに関連するイベント間の重要な相関に集中するグローバル関連エンコーダを含む、TKG内の歴史的イベントを構造化するのに優れた2つの特徴的なモジュールから構成される。 さらに$\mathsf{HisRES}$は、最近かつ歴史的に関連する構造表現を適応的にマージする自己ゲーティング機構を組み込んでいる。 4つのイベントベースベンチマークの大規模な実験は、$\mathsf{HisRES}$の最先端性能を示し、TKG推論の歴史的関連性を構築する上での優位性と有効性を示している。

Temporal Knowledge Graph (TKG) reasoning focuses on predicting events through historical information within snapshots distributed on a timeline. Existing studies mainly concentrate on two perspectives of leveraging the history of TKGs, including capturing evolution of each recent snapshot or correlations among global historical facts. Despite the achieved significant accomplishments, these models still fall short of (1) investigating the influences of multi-granularity interactions across recent snapshots and (2) harnessing the expressive semantics of significant links accorded with queries throughout the entire history, especially events exerting a profound impact on the future. These inadequacies restrict representation ability to reflect historical dependencies and future trends thoroughly. To overcome these drawbacks, we propose an innovative TKG reasoning approach towards \textbf{His}torically \textbf{R}elevant \textbf{E}vents \textbf{S}tructuring ($\mathsf{HisRES}$). Concretely, $\mathsf{HisRES}$ comprises two distinctive modules excelling in structuring historically relevant events within TKGs, including a multi-granularity evolutionary encoder that captures structural and temporal dependencies of the most recent snapshots, and a global relevance encoder that concentrates on crucial correlations among events relevant to queries from the entire history. Furthermore, $\mathsf{HisRES}$ incorporates a self-gating mechanism for adaptively merging multi-granularity recent and historically relevant structuring representations. Extensive experiments on four event-based benchmarks demonstrate the state-of-the-art performance of $\mathsf{HisRES}$ and indicate the superiority and effectiveness of structuring historical relevance for TKG reasoning.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 一般パラメータ化を用いたサンプル効率の制約付き強化学習

Sample-Efficient Constrained Reinforcement Learning with General Parameterization ( http://arxiv.org/abs/2405.10624v1 )

ライセンス: Link先を確認
Washim Uddin Mondal, Vaneet Aggarwal, (参考訳) エージェントの目標は、期待されるコストの割引金額が一定の閾値を超えることを保証しつつ、無限の地平線上での報酬の割引金額を最大化することである。 運動量に基づく加速度の考え方に基づいて、$\epsilon$大域的最適性ギャップと$\epsilon$制約違反を$\mathcal{O}(\epsilon^{-3})$サンプル複雑度で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。 これにより、CMDPの最先端サンプル複雑性は$\mathcal{O}(\epsilon^{-1})$で改善される。

We consider a constrained Markov Decision Problem (CMDP) where the goal of an agent is to maximize the expected discounted sum of rewards over an infinite horizon while ensuring that the expected discounted sum of costs exceeds a certain threshold. Building on the idea of momentum-based acceleration, we develop the Primal-Dual Accelerated Natural Policy Gradient (PD-ANPG) algorithm that guarantees an $\epsilon$ global optimality gap and $\epsilon$ constraint violation with $\mathcal{O}(\epsilon^{-3})$ sample complexity. This improves the state-of-the-art sample complexity in CMDP by a factor of $\mathcal{O}(\epsilon^{-1})$.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 有機反応予測のための命令調整およびバイトレベル言語モデルの作成と解析

Specialising and Analysing Instruction-Tuned and Byte-Level Language Models for Organic Reaction Prediction ( http://arxiv.org/abs/2405.10625v1 )

ライセンス: Link先を確認
Jiayun Pang, Ivan Vulić, (参考訳) トランスフォーマーベースのエンコーダデコーダモデルは化学反応予測タスクにおいて顕著な結果を示した。 しかし、これらのモデルは通常、数千万の未標識分子を使った事前学習に依存しており、それは時間とGPU集約性に富む。 FlanT5とByT5は、言語データのみに事前訓練されたエンコード・デコーダモデルで、タスク固有の微調整による有機反応予測に効果的に特化できますか? 我々は,トークン化,SMILES指向の事前学習の影響,微調整サンプル効率,推論時の復号アルゴリズムなど,プロセスのいくつかの重要な課題について,系統的研究を行った。 FlanT5とByT5は, 言語タスクのみに事前訓練されているものの, 反応予測のための微調整の基礎となり, プロセスにおいて「化学ドメイン互換」となることが示唆された。 このことは、GPU集約的で高価な分子の大規模なデータセットでの事前訓練は、化学のために言語モデルのパワーを活用するのに必要ではないかもしれないことを示唆している。 全てのモデルでTop-1とTop-5の精度が比較できるが、異なるモデルにまたがるいくつかのバリエーションが存在する。 特に、トークン化とボキャブラリトリミングは最終的なパフォーマンスにわずかに影響を及ぼすが、トレーニングと推論を高速化することができる。 まとめると、我々はFlanT5とByT5を様々な次元で評価し、有機反応予測への影響をベンチマークし、将来これらの最先端言語モデルを化学関連タスクにより効果的に活用するのに役立つかもしれない。

Transformer-based encoder-decoder models have demonstrated impressive results in chemical reaction prediction tasks. However, these models typically rely on pretraining using tens of millions of unlabelled molecules, which can be time-consuming and GPU-intensive. One of the central questions we aim to answer in this work is: Can FlanT5 and ByT5, the encode-decoder models pretrained solely on language data, be effectively specialised for organic reaction prediction through task-specific fine-tuning? We conduct a systematic empirical study on several key issues of the process, including tokenisation, the impact of (SMILES-oriented) pretraining, fine-tuning sample efficiency, and decoding algorithms at inference. Our key findings indicate that although being pretrained only on language tasks, FlanT5 and ByT5 provide a solid foundation to fine-tune for reaction prediction, and thus become `chemistry domain compatible' in the process. This suggests that GPU-intensive and expensive pretraining on a large dataset of unlabelled molecules may be useful yet not essential to leverage the power of language models for chemistry. All our models achieve comparable Top-1 and Top-5 accuracy although some variation across different models does exist. Notably, tokenisation and vocabulary trimming slightly affect final performance but can speed up training and inference; The most efficient greedy decoding strategy is very competitive while only marginal gains can be achieved from more sophisticated decoding algorithms. In summary, we evaluate FlanT5 and ByT5 across several dimensions and benchmark their impact on organic reaction prediction, which may guide more effective use of these state-of-the-art language models for chemistry-related tasks in the future.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 大規模言語モデルにおける言語間移動学習のための動的データサンプリング

Dynamic data sampler for cross-language transfer learning in large language models ( http://arxiv.org/abs/2405.10626v1 )

ライセンス: Link先を確認
Yudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou, (参考訳) 大規模言語モデル(LLM)は、その幅広い応用により自然言語処理(NLP)の分野で大きな注目を集めている。 しかし、大規模なコーパスの取得や必要な計算資源の取得が困難であることから、英語以外の言語でLLMを訓練することは大きな課題となっている。 本稿では,これらの課題に対処し,大規模中国語モデルを低コストで訓練するための言語間移動型LLMであるChatFlowを提案する。 我々は、中国語、英語、並列コーパスの混合を用いてLLaMA2モデルを継続的に訓練し、言語間表現の整合と中国語モデルへの知識伝達を促進することを目的としている。 さらに、動的データサンプリングを用いて、教師なし事前学習から教師なし微調整へモデルを段階的に移行する。 実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。 一般的な中国語と英語のベンチマークでChatFlowを評価し,LLaMA-2-7Bで学習した他の中国語モデルよりも優れていることを示した。

Large Language Models (LLMs) have gained significant attention in the field of natural language processing (NLP) due to their wide range of applications. However, training LLMs for languages other than English poses significant challenges, due to the difficulty in acquiring large-scale corpus and the requisite computing resources. In this paper, we propose ChatFlow, a cross-language transfer-based LLM, to address these challenges and train large Chinese language models in a cost-effective manner. We employ a mix of Chinese, English, and parallel corpus to continuously train the LLaMA2 model, aiming to align cross-language representations and facilitate the knowledge transfer specifically to the Chinese language model. In addition, we use a dynamic data sampler to progressively transition the model from unsupervised pre-training to supervised fine-tuning. Experimental results demonstrate that our approach accelerates model convergence and achieves superior performance. We evaluate ChatFlow on popular Chinese and English benchmarks, the results indicate that it outperforms other Chinese models post-trained on LLaMA-2-7B.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 無限に射影された絡み合ったペア状態を持つスペクトル関数

Spectral functions with infinite projected entangled-pair states ( http://arxiv.org/abs/2405.10628v1 )

ライセンス: Link先を確認
Juan Diego Arias Espinoza, Philippe Corboz, (参考訳) 無限射影エンタングルペア状態(iPEPS)は、熱力学の極限において、2次元の強い相関系を直接研究するための強力なツールを提供する。 本研究では,iPEPSツールボックスを拡張し,非等時2点相関器を効率よく評価し,スペクトル関数の計算を可能にする。 これは、大きな単位セルの基底状態のiPEPSアンサッツに基づいており、演算子はセルの中央に印加され、高速フル更新法を用いてリアルタイムで進化する。 セル内の2点相関器は、毎回コーナー転送行列再正規化グループ法に基づいて計算される。 2次元横場イジングモデルのベンチマーク結果から, 動的構造因子の主な特徴は, 比較的小さな結合次元と単位セルサイズで再現できることが示唆された。 マグノン分散の結果は、iPEPS励起アンサッツで得られた過去のデータとよく一致していることがわかった。

Infinite projected entangled-pair states (iPEPS) provide a powerful tool to study two-dimensional strongly correlated systems directly in the thermodynamic limit. In this work, we extend the iPEPS toolbox by a method to efficiently evaluate non-equal time two-point correlators, enabling the computation of spectral functions. It is based on an iPEPS ansatz of the ground state in a large unit cell, with an operator applied in the center of the cell, which is evolved in real-time using the fast-full update method. At every time step, the two-point correlators within a cell are computed based on the corner transfer matrix renormalization group method. Benchmark results for the 2D transverse field Ising model show that the main features of the dynamical structure factor can already be reproduced at relatively small bond dimensions and unit cell sizes. The results for the magnon dispersion are found to be in good agreement with previous data obtained with the iPEPS excitation ansatz.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detectioning boundary of Machine-Generated Texts (英語)

DeepPavlov at SemEval-2024 Task 8: Leveraging Transfer Learning for Detecting Boundaries of Machine-Generated Texts ( http://arxiv.org/abs/2405.10629v1 )

ライセンス: Link先を確認
Anastasia Voznyuk, Vasily Konovalov, (参考訳) SemEval-2024コンペティションにおけるマルチジェネレータ、マルチドメイン、マルチ言語ブラックボックスマシン生成テキスト検出共有タスクは、協調AI書き込みを誤用する問題に対処することを目的としている。 AIコンテンツの既存の検出器は数多く存在するが、それらはバイナリな回答を与えるように設計されているため、人書きテキストと機械生成テキストの境界を見つけるためのより微妙な問題には適さないかもしれない。 本稿では境界検出問題に対処する。 特に,DeBERTaV3の教師付き微調整のためのデータ拡張パイプラインを提案する。 競争のリーダーボードによると、私たちはこのパイプラインで新しい最高のMAEスコアを受け取ります。

The Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection shared task in the SemEval-2024 competition aims to tackle the problem of misusing collaborative human-AI writing. Although there are a lot of existing detectors of AI content, they are often designed to give a binary answer and thus may not be suitable for more nuanced problem of finding the boundaries between human-written and machine-generated texts, while hybrid human-AI writing becomes more and more popular. In this paper, we address the boundary detection problem. Particularly, we present a pipeline for augmenting data for supervised fine-tuning of DeBERTaV3. We receive new best MAE score, according to the leaderboard of the competition, with this pipeline.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 医学対話 : カテゴリー, 方法, 評価, 課題

Medical Dialogue: A Survey of Categories, Methods, Evaluation and Challenges ( http://arxiv.org/abs/2405.10630v1 )

ライセンス: Link先を確認
Xiaoming Shi, Zeming Liu, Li Du, Yuxuan Wang, Hongru Wang, Yuhang Guo, Tong Ruan, Jie Xu, Shaoting Zhang, (参考訳) 本稿では,医療ダイアログシステムの研究成果を調査・整理する。 これらのシステムは応用の観点から医学界で調査されてきたが、厳密な技術的観点からの体系的なレビューは、いまだ顕著に欠落している。 その結果,医療対話システムのカテゴリ,方法,評価の概観は限定的かつ未特定のままであり,この分野のさらなる改善を妨げている。 このギャップを埋めるために、よく知られたコンピュータサイエンス、自然言語処理会議、ジャーナルから325の論文を初期プールで調査し、概観する。 近年,大規模言語モデルは下流タスクにおいて強力なモデル能力を示しており,医療ダイアログシステムの基礎も作り直されている。 実用的な応用価値は高いが、現在の医療対話システムは依然として問題に悩まされている。 本稿では,医療対話システム,特に大規模言語モデルにおける課題を列挙する。

This paper surveys and organizes research works on medical dialog systems, which is an important yet challenging task. Although these systems have been surveyed in the medical community from an application perspective, a systematic review from a rigorous technical perspective has to date remained noticeably absent. As a result, an overview of the categories, methods, and evaluation of medical dialogue systems remain limited and underspecified, hindering the further improvement of this area. To fill this gap, we investigate an initial pool of 325 papers from well-known computer science, and natural language processing conferences and journals, and make an overview. Recently, large language models have shown strong model capacity on downstream tasks, which also reshaped medical dialog systems' foundation. Despite the alluring practical application value, current medical dialogue systems still suffer from problems. To this end, this paper lists the grand challenges of medical dialog systems, especially of large language models.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 静的AI評価を超えて: LLMの害とリスクに対する人間のインタラクション評価を前進させる

Beyond static AI evaluations: advancing human interaction evaluations for LLM harms and risks ( http://arxiv.org/abs/2405.10632v1 )

ライセンス: Link先を確認
Lujain Ibrahim, Saffron Huang, Lama Ahmad, Markus Anderljung, (参考訳) モデル評価は、AIシステムの安全性、リスク、社会的影響を理解する上で重要である。 ほとんどの実世界のAIアプリケーションは人間とAIのインタラクションを含んでいるが、AIモデルの現在の評価(例えば、一般的なベンチマーク)はそうではない。 その代わりに、人間的要因を限定的に組み込んで、モデルの安全性を個別に評価することで、人間とモデルの相互作用の複雑さを捉えることができない。 本稿では,人-モデルインタラクションの評価や,モデルを用いた人-モデルインタラクションのプロセスと結果に焦点をあてた,新たな評価カテゴリ"ヒューマンインタラクション評価" (HIEs) の定義と運用について論じる。 まず、HIEは安全性評価の妥当性を高め、直接人的影響と相互作用特異的害を評価し、モデルによる社会的影響の今後の評価を導くために使用できると論じる。 第2に,安全性を重視したHIE設計フレームワーク(人-LLM相互作用分類を含む)について,(1)危険領域の同定,(2)使用状況の特徴付け,(3)評価パラメータの選択の3段階について提案する。 第3に、過信と説得リスクの2つの潜在的評価に我々の枠組みを適用します。 最後に,HIEのコスト,複製性,非表現性に関する懸念に対処するための具体的な勧告を述べる。

Model evaluations are central to understanding the safety, risks, and societal impacts of AI systems. While most real-world AI applications involve human-AI interaction, most current evaluations (e.g., common benchmarks) of AI models do not. Instead, they incorporate human factors in limited ways, assessing the safety of models in isolation, thereby falling short of capturing the complexity of human-model interactions. In this paper, we discuss and operationalize a definition of an emerging category of evaluations -- "human interaction evaluations" (HIEs) -- which focus on the assessment of human-model interactions or the process and the outcomes of humans using models. First, we argue that HIEs can be used to increase the validity of safety evaluations, assess direct human impact and interaction-specific harms, and guide future assessments of models' societal impact. Second, we propose a safety-focused HIE design framework -- containing a human-LLM interaction taxonomy -- with three stages: (1) identifying the risk or harm area, (2) characterizing the use context, and (3) choosing the evaluation parameters. Third, we apply our framework to two potential evaluations for overreliance and persuasion risks. Finally, we conclude with tangible recommendations for addressing concerns over costs, replicability, and unrepresentativeness of HIEs.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# グラフニューラルネットワークのためのデータ拡張における集合構造知識のハーネス化

Harnessing Collective Structure Knowledge in Data Augmentation for Graph Neural Networks ( http://arxiv.org/abs/2405.10633v1 )

ライセンス: Link先を確認
Rongrong Ma, Guansong Pang, Ling Chen, (参考訳) グラフニューラルネットワーク(GNN)は,グラフ表現学習において最先端のパフォーマンスを達成した。 メッセージパッシングニューラルネットワークは、各ノードとその周辺からの情報を再帰的に集約することで表現を学習する。 しかし、個々のノードとフルグラフの豊富な構造情報は、GNNの表現力を制限するようなプロセスでは無視されることが多い。 よりリッチな構造知識でメッセージパッシングを可能にする様々なグラフデータ拡張手法がこの問題に対処する主要な方法として紹介されているが、それらはしばしば個々の構造特徴に焦点を絞っており、より多くの構造特徴でスケールアップするのが困難である。 本研究は,GNNが拡張グラフにおいて,元のノード特徴/属性とともに,多様なノードレベルおよびグラフレベルの構造特徴を活用できるように,新しいメッセージパッシング手法を導入することを目的とした,集合構造知識強化グラフニューラルネットワーク(CoS-GNN)を提案する。 そこで本手法は,ノードレベルとグラフレベルのGNNの構造知識モデリングを大幅に改善し,グラフ表現を大幅に改善する。 これは、CoS-GNNがグラフ分類、異常検出、アウト・オブ・ディストリビューション一般化など、様々なグラフレベルの学習タスクにおいて、最先端のモデルより優れているという広範な実験結果によって正当化される。

Graph neural networks (GNNs) have achieved state-of-the-art performance in graph representation learning. Message passing neural networks, which learn representations through recursively aggregating information from each node and its neighbors, are among the most commonly-used GNNs. However, a wealth of structural information of individual nodes and full graphs is often ignored in such process, which restricts the expressive power of GNNs. Various graph data augmentation methods that enable the message passing with richer structure knowledge have been introduced as one main way to tackle this issue, but they are often focused on individual structure features and difficult to scale up with more structure features. In this work we propose a novel approach, namely collective structure knowledge-augmented graph neural network (CoS-GNN), in which a new message passing method is introduced to allow GNNs to harness a diverse set of node- and graph-level structure features, together with original node features/attributes, in augmented graphs. In doing so, our approach largely improves the structural knowledge modeling of GNNs in both node and graph levels, resulting in substantially improved graph representations. This is justified by extensive empirical results where CoS-GNN outperforms state-of-the-art models in various graph-level learning tasks, including graph classification, anomaly detection, and out-of-distribution generalization.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 大規模言語モデルの効率的な推論のための層凝縮KVキャッシュ

Layer-Condensed KV Cache for Efficient Inference of Large Language Models ( http://arxiv.org/abs/2405.10637v1 )

ライセンス: Link先を確認
Haoyi Wu, Kewei Tu, (参考訳) 大規模なメモリ消費は、現実世界のアプリケーションに高スループットの大規模言語モデルをデプロイする上で、大きなボトルネックとなっている。 多数のパラメータに加えて、トランスフォーマーアーキテクチャにおけるアテンション機構のためのキー値(KV)キャッシュは、特にディープ言語モデルの場合、かなりの量のメモリを消費する。 本稿では,少数のレイヤのKVのみを計算・キャッシュし,メモリ消費を大幅に削減し,推論スループットを向上する手法を提案する。 大規模言語モデルを用いた実験により,本手法は標準変圧器よりも最大26$\times$高いスループットを達成でき,言語モデリングや下流タスクにおける競合性能が向上することが示された。 また,本手法はトランスフォーマーのメモリ節約技術と直交しているため,モデルと統合しやすく,推論効率の向上が図られている。 私たちのコードはhttps://github.com/whyNLP/LCKVで公開されています。

Huge memory consumption has been a major bottleneck for deploying high-throughput large language models in real-world applications. In addition to the large number of parameters, the key-value (KV) cache for the attention mechanism in the transformer architecture consumes a significant amount of memory, especially when the number of layers is large for deep language models. In this paper, we propose a novel method that only computes and caches the KVs of a small number of layers, thus significantly saving memory consumption and improving inference throughput. Our experiments on large language models show that our method achieves up to 26$\times$ higher throughput than standard transformers and competitive performance in language modeling and downstream tasks. In addition, our method is orthogonal to existing transformer memory-saving techniques, so it is straightforward to integrate them with our model, achieving further improvement in inference efficiency. Our code is available at https://github.com/whyNLP/LCKV.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# Hi-GMAE:階層型グラフマスケオートエンコーダ

Hi-GMAE: Hierarchical Graph Masked Autoencoders ( http://arxiv.org/abs/2405.10642v1 )

ライセンス: Link先を確認
Chuang Liu, Zelin Yao, Yibing Zhan, Xueqi Ma, Dapeng Tao, Jia Wu, Wenbin Hu, Shirui Pan, Bo Du, (参考訳) Graph Masked Autoencoders (GMAE) は,グラフ構造化データの自己教師型学習手法として注目されている。 既存のGMAEモデルは、主にノードレベルの情報の再構築に重点を置いており、それらを単一スケールのGMAEとして分類している。 この方法論は特定の文脈で有効であるが、多くの実世界のグラフに固有の複雑な階層構造を見渡す傾向にある。 例えば、分子グラフは原子官能基-分子構造の形で明確な階層構造を示す。 したがって、単一スケールのGMAEモデルがこれらの階層的関係を組み込むことができないため、重要なハイレベルグラフ情報の取得が不十分になり、性能が著しく低下する。 この制限に対処するために,階層型グラフマスケッドオートエンコーダ (Hi-GMAE) を提案する。 第一に、Hi-GMAEはグラフプーリングを通じてマルチスケールグラフ階層を構築し、異なる粒度レベルにわたるグラフ構造の探索を可能にする。 そこで本研究では,これらのスケールにわたるサブグラフのマスキング均一性を確保するために,マスキングを最も粗いスケールで開始し,マスクをより微細なスケールに段階的にバックプロジェクションする,新しい粗いツーファイン戦略を提案する。 さらに、マスキングプロセスと段階的回復戦略を統合し、完全にマスキングされたサブグラフによる学習課題を軽減する。 GMAEモデルで使用される標準グラフニューラルネットワーク(GNN)から切り離され、Hi-GMAEはエンコーダとデコーダを階層構造に修正する。 これは、より詳細な局所グラフ解析のために、より微細なスケールでGNNを使用し、粗いスケールでグラフトランスフォーマーを使用してグローバル情報をキャプチャする。 15のグラフデータセットに対する実験は、Hi-GMAEが17の最先端の自己管理競合より優れていることを一貫して示している。

Graph Masked Autoencoders (GMAEs) have emerged as a notable self-supervised learning approach for graph-structured data. Existing GMAE models primarily focus on reconstructing node-level information, categorizing them as single-scale GMAEs. This methodology, while effective in certain contexts, tends to overlook the complex hierarchical structures inherent in many real-world graphs. For instance, molecular graphs exhibit a clear hierarchical organization in the form of the atoms-functional groups-molecules structure. Hence, the inability of single-scale GMAE models to incorporate these hierarchical relationships often leads to their inadequate capture of crucial high-level graph information, resulting in a noticeable decline in performance. To address this limitation, we propose Hierarchical Graph Masked AutoEncoders (Hi-GMAE), a novel multi-scale GMAE framework designed to handle the hierarchical structures within graphs. First, Hi-GMAE constructs a multi-scale graph hierarchy through graph pooling, enabling the exploration of graph structures across different granularity levels. To ensure masking uniformity of subgraphs across these scales, we propose a novel coarse-to-fine strategy that initiates masking at the coarsest scale and progressively back-projects the mask to the finer scales. Furthermore, we integrate a gradual recovery strategy with the masking process to mitigate the learning challenges posed by completely masked subgraphs. Diverging from the standard graph neural network (GNN) used in GMAE models, Hi-GMAE modifies its encoder and decoder into hierarchical structures. This entails using GNN at the finer scales for detailed local graph analysis and employing a graph transformer at coarser scales to capture global information. Our experiments on 15 graph datasets consistently demonstrate that Hi-GMAE outperforms 17 state-of-the-art self-supervised competitors.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 量子同期と散逸量子センシング

Quantum Synchronization and Dissipative Quantum Sensing ( http://arxiv.org/abs/2405.10643v1 )

ライセンス: Link先を確認
Gaurav M. Vaidya, Simon B. Jäger, Athreya Shankar, (参考訳) 量子メトロジーの観点から量子同期現象を考察する。 量子自己持続型発振器を散逸性量子センサとして解釈することにより、量子同期の諸側面を特徴づける枠組みを開発する。 量子フィッシャー情報(QFI)は、量子同期のシステムに依存しない測度として機能し、明快な操作的意味、すなわち、弱い同期駆動の振幅を計測できる精度を定量化する。 我々は解析を拡張して、複数の駆動対象の多体発振器について検討する。 本稿では、QFI行列を用いて、量子同期を最大化する最適なドライブを決定するとともに、異なるドライブによって誘導される同期応答を定量的に区別する方法について述べる。 我々の研究は、量子同期と量子メートル法の間の複数の接続を強調し、量子同期の量子技術応用を見つけるための道を開いた。

We study the phenomenon of quantum synchronization from the viewpoint of quantum metrology. By interpreting quantum self-sustained oscillators as dissipative quantum sensors, we develop a framework to characterize several aspects of quantum synchronization. We show that the quantum Fisher information (QFI) serves as a system-agnostic measure of quantum synchronization that also carries a clear operational meaning, viz., it quantifies the precision with which the amplitude of a weak synchronizing drive can be measured. We extend our analysis to study many-body oscillators subjected to multiple drives. We show how the QFI matrix can be used to determine the optimal drive that maximizes quantum synchronization, and also to quantitatively differentiate the synchronization responses induced by different drives. Our work highlights multiple connections between quantum synchronization and quantum metrology, paving a route towards finding quantum technological applications of quantum synchronization.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 教室におけるチャットGPT : 学習機会への挑戦

ChatGPT in Classrooms: Transforming Challenges into Opportunities in Education ( http://arxiv.org/abs/2405.10645v1 )

ライセンス: Link先を確認
Harris Bin Munawar, Nikolaos Misirlis, (参考訳) テクノロジーの指数的成長の時代、ある予想外のゲストが、世界中の教室に人工知能(AI)と呼ばれる席を構えた。 ChatGPTのような生成AIは、教育の革命を約束するが、両刃の剣でやってくる。 パーソナライズされた学習の可能性は、不正行為、不正確さ、教育者が授業デザインに効果的に組み込むのに苦労している問題によって相殺される。 私たちはこの教育フロンティアの瀬戸際に立っており、多くの注意を払ってこの地形をナビゲートする必要があることは明らかです。 これは、教育プロセスの完全性と価値を損なう可能性のある大きな課題です。 では、これらの課題を機会に変えるにはどうすればよいのか? 不適切に使用すると、AIツールは、コピーペースト精神をコピーするための完璧なツールとなり、批判的思考、創造性、そして深い理解を、急速に変化する世界において最も重要なスキルと、すぐに組み合わせ始めます。 教師はこの技術を活用できないと感じており、教育者や機関間のデジタル格差を広げている。 これらの懸念に対処するためには、深い研究アプローチが必要である。 我々は、教育者や学生の生成AIに対する態度を評価するために、テクノロジーアクセプタンスモデルに基づく実証的研究を採用する。 彼らの認識、利用パターン、ハードルを理解することは、効果的なソリューションを作るための最初の重要なステップです。 本研究は、今後の研究者が独自のデータを適用し、運用するためのプロセスマニュアルとして用いられる。

In the era of exponential technology growth, one unexpected guest has claimed a seat in classrooms worldwide, Artificial Intelligence. Generative AI, such as ChatGPT, promises a revolution in education, yet it arrives with a double-edged sword. Its potential for personalized learning is offset by issues of cheating, inaccuracies, and educators struggling to incorporate it effectively into their lesson design. We are standing on the brink of this educational frontier, and it is clear that we need to navigate this terrain with a lot of care. This is a major challenge that could undermine the integrity and value of our educational process. So, how can we turn these challenges into opportunities? When used inappropriately, AI tools can become the perfect tool for the cut copy paste mentality, and quickly begin to corrode critical thinking, creativity, and deep understanding, the most important skills in our rapidly changing world. Teachers feel that they are not equipped to leverage this technology, widening the digital divide among educators and institutions. Addressing these concerns calls for an in depth research approach. We will employ empirical research, drawing on the Technology Acceptance Model, to assess the attitudes toward generative AI among educators and students. Understanding their perceptions, usage patterns, and hurdles is the first crucial step in creating an effective solution. The present study will be used as a process manual for future researchers to apply, running their own data, based on the steps explained here
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# 周期的重み強化 : シリアル・フェデレーション・ラーニングにおけるカタストロフィック・フォーミングの解決を目指して

Cyclical Weight Consolidation: Towards Solving Catastrophic Forgetting in Serial Federated Learning ( http://arxiv.org/abs/2405.10647v1 )

ライセンス: Link先を確認
Haoyue Song, Jiacheng Wang, Liansheng Wang, (参考訳) フェデレートラーニング(FL)は、データの不足とプライバシー上の懸念に対処するために注目を集めている。 FedAvgのような並列FLアルゴリズムは優れたパフォーマンスを示すが、ネットワーク速度の多様性や集中管理に関する懸念のあるシナリオ、特に医療領域のような多施設的なコラボレーションでは課題に直面している。 シリアルFLは、デバイス間で連続的に更新を循環的に転送することで、これらの課題を回避するための代替ソリューションを提供する。 それにもかかわらず、(1)その性能は望ましくない変動を示し、(2)低台地(特に非IIDデータを扱う場合)に収束する。 観測された現象は、以前の場所からの知識喪失による破滅的な忘れ物によるものである。 本稿では,繰り返し学習および忘れる過程における変動と低効率を克服するために,直列FLに特化して最適化された単純かつ強力なアプローチである循環重み統合(CWC)を導入する。 CWCは局所最適化を制御するために強化行列を用いる。 この行列は、トレーニング軌跡全体を通して、各パラメータが全体のフェデレーションに与える影響をトラックし、重要な重みの急激な変化を防ぐ。 再検討中、適応性を維持するため、古いメモリは新しい情報を組み込むために崩壊する。 総合評価の結果、CWCは、様々な非IID設定において、元の直列FLアプローチの変動挙動を緩和し、収束性能を連続的に大幅に向上することを示した。 改善されたパフォーマンスは、並列バニラと同等かそれ以上である。

Federated Learning (FL) has gained attention for addressing data scarcity and privacy concerns. While parallel FL algorithms like FedAvg exhibit remarkable performance, they face challenges in scenarios with diverse network speeds and concerns about centralized control, especially in multi-institutional collaborations like the medical domain. Serial FL presents an alternative solution, circumventing these challenges by transferring model updates serially between devices in a cyclical manner. Nevertheless, it is deemed inferior to parallel FL in that (1) its performance shows undesirable fluctuations, and (2) it converges to a lower plateau, particularly when dealing with non-IID data. The observed phenomenon is attributed to catastrophic forgetting due to knowledge loss from previous sites. In this paper, to overcome fluctuation and low efficiency in the iterative learning and forgetting process, we introduce cyclical weight consolidation (CWC), a straightforward yet potent approach specifically tailored for serial FL. CWC employs a consolidation matrix to regulate local optimization. This matrix tracks the significance of each parameter on the overall federation throughout the entire training trajectory, preventing abrupt changes in significant weights. During revisitation, to maintain adaptability, old memory undergoes decay to incorporate new information. Our comprehensive evaluations demonstrate that in various non-IID settings, CWC mitigates the fluctuation behavior of the original serial FL approach and enhances the converged performance consistently and significantly. The improved performance is either comparable to or better than the parallel vanilla.
翻訳日:2024-05-20 16:32:42 公開日:2024-05-17
# SPOR:データ・テキスト・ジェネレーションにおける構成一般化のための総合的・実践的評価手法

SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation ( http://arxiv.org/abs/2405.10650v1 )

ライセンス: Link先を確認
Ziyao Xu, Houfeng Wang, (参考訳) 構成一般化は言語モデルの重要な能力であり、多くの異なる表現を持つ。 データ・トゥ・テキスト生成では、この能力に関するこれまでの研究は、Systematicityと呼ばれる単一のマニフェストに限られており、実用的なアプリケーションシナリオを完全にカバーできない大規模言語モデル(LLM)の考慮が欠如している。 本研究では,データ・テキスト生成における合成一般化のための総合的・実践的な評価手法であるSPORを提案する。 SPORには、宣言の4つの側面(体系性、生産性、秩序不変性、規則学習性)が含まれており、既存のデータセットに基づいた追加のマニュアルアノテーションなしで高品質な評価を可能にする。 2つの異なるデータセット上でSPORを実証し、LLMを含む既存の言語モデルを評価する。 評価の様々な面においてモデルが不足していることが分かり、さらなる改善が必要である。 本研究は、データ・テキスト・ジェネレーションにおける合成一般化の異なる表現に関する総合的な研究の必要性を示し、評価のための枠組みを提供する。

Compositional generalization is an important ability of language models and has many different manifestations. For data-to-text generation, previous research on this ability is limited to a single manifestation called Systematicity and lacks consideration of large language models (LLMs), which cannot fully cover practical application scenarios. In this work, we propose SPOR, a comprehensive and practical evaluation method for compositional generalization in data-to-text generation. SPOR includes four aspects of manifestations (Systematicity, Productivity, Order invariance, and Rule learnability) and allows high-quality evaluation without additional manual annotations based on existing datasets. We demonstrate SPOR on two different datasets and evaluate some existing language models including LLMs. We find that the models are deficient in various aspects of the evaluation and need further improvement. Our work shows the necessity for comprehensive research on different manifestations of compositional generalization in data-to-text generation and provides a framework for evaluation.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# 線形正準変換領域における不確実性原理のメタプレクティック視点

A metaplectic perspective of uncertainty principles in the Linear Canonical Transform domain ( http://arxiv.org/abs/2405.10651v1 )

ライセンス: Link先を確認
Nuno Costa Dias, Maurice de Gosson, João Nuno Prata, (参考訳) 我々は、与えられた函数の線型正準変換の対に対するハイゼンベルクの不確実性原理を、これらの変換が自由シンプレクティック行列に関連するただのメタプレクティック作用素であるという事実に頼って導いた。 結果は、任意の次元の全ての信号と任意のメタプレクティック演算子(特に線形正準変換を含む)に適用するため、文献で得られた前の結果を合成して一般化した。 さらに、線形正準変換に対するRobertson-Schr\"odinger不確実性原理の一般化も得られる。 また、時間周波数平面における2つの中間方向に沿った信号を表す2次位相空間分布を提案する。 辺分布は常に非負であり、ラドン変換の観点で簡単な解釈を許す。 また、非標準シンプレクティックベクトル空間上のワイル量子化から得られるウィグナー分布として、この二次位相空間表現の幾何学的解釈を与える。 最後に、メタプレクティック作用素に対するハーディの不確実性原理の多次元版と線形正準変換に対するパリー・ウィーナーの定理を導出する。

We derive Heisenberg uncertainty principles for pairs of Linear Canonical Transforms of a given function, by resorting to the fact that these transforms are just metaplectic operators associated with free symplectic matrices. The results obtained synthesize and generalize previous results found in the literature, because they apply to all signals, in arbitrary dimension and any metaplectic operator (which includes Linear Canonical Transforms as particular cases). Moreover, we also obtain a generalization of the Robertson-Schr\"odinger uncertainty principle for Linear Canonical Transforms. We also propose a new quadratic phase-space distribution, which represents a signal along two intermediate directions in the time-frequency plane. The marginal distributions are always non-negative and permit a simple interpretation in terms of the Radon transform. We also give a geometric interpretation of this quadratic phase-space representation as a Wigner distribution obtained upon Weyl quantization on a non-standard symplectic vector space. Finally, we derive the multidimensional version of the Hardy uncertainty principle for metaplectic operators and the Paley-Wiener theorem for Linear Canonical Transforms.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# パラメータ脆弱性に基づくハードニング・プルーニングによるCNNのコスト効果フォールトトレランス

Cost-Effective Fault Tolerance for CNNs Using Parameter Vulnerability Based Hardening and Pruning ( http://arxiv.org/abs/2405.10658v1 )

ライセンス: Link先を確認
Mohammad Hasan Ahmadilivani, Seyedhamidreza Mousavi, Jaan Raik, Masoud Daneshtalab, Maksim Jenihhin, (参考訳) 畳み込みニューラルネットワーク(CNN)は、安全クリティカルなアプリケーションに不可欠なものとなり、そのフォールトトレランスに対する懸念が高まっている。 Triple Modular Redundancy (TMR) のような従来のハードウェア依存のフォールトトレランス手法は計算コストが高く、CNNに顕著なオーバーヘッドをもたらす。 フォールトトレランス技術はハードウェアレベルでもモデルレベルでも適用可能であるが、後者は汎用性を犠牲にすることなく、より柔軟性を提供する。 本稿では,ニューラルネットワークに誤り訂正を直接組み込むことにより,CNNのモデルレベル硬化手法を提案する。 このアプローチはハードウェアに依存しないため、基盤となるアクセラレータデバイスを変更する必要はない。 パラメータの脆弱性を分析することで、選択フィルタ/ニューロンの複製を可能にし、その出力チャネルを効率的で堅牢な補正層で効果的に修正する。 提案手法は,TMRに基づく補正とほぼ同等の耐故障性を示すが,オーバーヘッドは大幅に減少する。 それでも、ベースラインのCNNには固有のオーバーヘッドがある。 この問題に対処するために、コスト効率のよいパラメータ脆弱性に基づくプルーニング手法が提案され、従来のプルーニング手法よりも優れており、より小さなネットワークで精度を損なうことができる。 注目すべきは、硬化した刈り取られたCNNは、硬化した未刈り取られたCNNよりも最大24倍高速である。

Convolutional Neural Networks (CNNs) have become integral in safety-critical applications, thus raising concerns about their fault tolerance. Conventional hardware-dependent fault tolerance methods, such as Triple Modular Redundancy (TMR), are computationally expensive, imposing a remarkable overhead on CNNs. Whereas fault tolerance techniques can be applied either at the hardware level or at the model levels, the latter provides more flexibility without sacrificing generality. This paper introduces a model-level hardening approach for CNNs by integrating error correction directly into the neural networks. The approach is hardware-agnostic and does not require any changes to the underlying accelerator device. Analyzing the vulnerability of parameters enables the duplication of selective filters/neurons so that their output channels are effectively corrected with an efficient and robust correction layer. The proposed method demonstrates fault resilience nearly equivalent to TMR-based correction but with significantly reduced overhead. Nevertheless, there exists an inherent overhead to the baseline CNNs. To tackle this issue, a cost-effective parameter vulnerability based pruning technique is proposed that outperforms the conventional pruning method, yielding smaller networks with a negligible accuracy loss. Remarkably, the hardened pruned CNNs perform up to 24\% faster than the hardened un-pruned ones.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# 大規模言語モデルにおける毒性の現実的評価

Realistic Evaluation of Toxicity in Large Language Models ( http://arxiv.org/abs/2405.10659v1 )

ライセンス: Link先を確認
Tinh Son Luong, Thanh-Thien Le, Linh Ngo Van, Thien Huu Nguyen, (参考訳) 大きな言語モデル(LLM)は、私たちのプロフェッショナルなワークフローや日々の生活に不可欠なものになっています。 膨大な量のデータを多種多様な知識で提供し、避けられない毒性や偏見にさらしているのです。 ほとんどのLLMは有害なコンテンツの発生を防ぐための防御機構を組み込んでいるが、これらの安全対策は最小限の迅速な技術で容易に回避できる。 本稿では,これらのモデルの保護層を無効化するための手作業によるプロンプトを含む,Toroughly Engineered Toxicity (TET)データセットについて紹介する。 広範な評価を通じて,本論文では,通常のプロンプトを用いて隠蔽される可能性のあるLSMの毒性について,厳密な評価基準を提供する上で,TETが重要な役割を担っていることを示す。

Large language models (LLMs) have become integral to our professional workflows and daily lives. Nevertheless, these machine companions of ours have a critical flaw: the huge amount of data which endows them with vast and diverse knowledge, also exposes them to the inevitable toxicity and bias. While most LLMs incorporate defense mechanisms to prevent the generation of harmful content, these safeguards can be easily bypassed with minimal prompt engineering. In this paper, we introduce the new Thoroughly Engineered Toxicity (TET) dataset, comprising manually crafted prompts designed to nullify the protective layers of such models. Through extensive evaluations, we demonstrate the pivotal role of TET in providing a rigorous benchmark for evaluation of toxicity awareness in several popular LLMs: it highlights the toxicity in the LLMs that might remain hidden when using normal prompts, thus revealing subtler issues in their behavior.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# Soraから見えるもの:テキスト・ビデオ・ジェネレーションに関する調査

From Sora What We Can See: A Survey of Text-to-Video Generation ( http://arxiv.org/abs/2405.10674v1 )

ライセンス: Link先を確認
Rui Sun, Yumin Zhang, Tejal Shah, Jiahao Sun, Shuoying Zhang, Wenqi Li, Haoran Duan, Bo Wei, Rajiv Ranjan, (参考訳) 人工知能は、目覚ましい成果によって、人工知能への道のりをたどっている。 OpenAIが開発したSoraは、この発展過程のマイルストーンとみなすことができる。 しかし、その顕著な成功にもかかわらず、ソラは解決すべき様々な障害に直面している。 本調査では,テキスト・ビデオ・ジェネレーションにおけるSoraの分解と文献の総合的なレビューを行い,その疑問に答えるために,<textit{From Sora What We Can See} という質問に答える。 具体的には、一般的なアルゴリズムに関する基本的な予備研究が導入された後、進化的ジェネレータ、優れた追求、現実的なパノラマという、相互に垂直な3つの次元から分類される。 その後、広く使われているデータセットとメトリクスが詳細に整理される。 最後に、この領域におけるいくつかの課題とオープンな課題を特定し、研究と開発の将来的な方向性を提案する。

With impressive achievements made, artificial intelligence is on the path forward to artificial general intelligence. Sora, developed by OpenAI, which is capable of minute-level world-simulative abilities can be considered as a milestone on this developmental path. However, despite its notable successes, Sora still encounters various obstacles that need to be resolved. In this survey, we embark from the perspective of disassembling Sora in text-to-video generation, and conducting a comprehensive review of literature, trying to answer the question, \textit{From Sora What We Can See}. Specifically, after basic preliminaries regarding the general algorithms are introduced, the literature is categorized from three mutually perpendicular dimensions: evolutionary generators, excellent pursuit, and realistic panorama. Subsequently, the widely used datasets and metrics are organized in detail. Last but more importantly, we identify several challenges and open problems in this domain and propose potential future directions for research and development.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# 分散型金融(DeFi)におけるIT戦略の整合性:CBDCとデジタル通貨

IT Strategic alignment in the decentralized finance (DeFi): CBDC and digital currencies ( http://arxiv.org/abs/2405.10678v1 )

ライセンス: Link先を確認
Carlos Alberto Durigan Junior, Fernando Jose Barbin Laurindo, (参考訳) 暗号通貨は、暗号経済の参加者の間で取引されるデジタル資産として理解することができる。 すべての暗号通貨は、関連するブロックチェーンを持つ必要がある。 BlockchainはDLT(Distributed Ledger Technology)であり、暗号通貨をサポートする。 DeFi(Decentralized Finance)はブロックチェーンベースの金融インフラであり、Ethereum Blockchainのようなパブリックなスマートコントラクトプラットフォーム上に構築されたオープンで、無許可で、高度に相互運用可能なプロトコルスタックを指す。 既存の金融サービスを、よりオープンで透過的な方法で複製する。 DeFiは仲介業者や中央集権機関に依存していない。 代わりに、オープンプロトコルと分散アプリケーション(Dapps)に基づいている。 多くのデジタルコイン、安定コイン、中央銀行デジタル通貨(CBDC)があるので、これらの通貨はいつか相互に相互作用すべきである。 このインタラクションのために、情報技術要素は、イネーブラーとIT戦略的アライメントとして重要な役割を担います。 本稿では,Henderson and Venkatraman (1993) と Luftman (1996) による戦略的アライメントモデルについて考察する。 この論文は2つの主要な疑問に答えようとしている。 1) DeFi の一般的な IT 要素は何ですか? そして 2) 要素はDeFiのIT戦略的アライメントとどのように結びつくのか? SLR (Systematic Literature Review) の略。 結果として、すでに文献で言及されている多くのIT要素があることが指摘されているが、分散ファイナンス(DeFi)アーキテクチャネットワークにおいて、IT要素とIT戦略的整合性との関係に関する文献が不足している。 最終検討の後、限界と今後の研究課題が提示される。 キーワード:ITストラテジックアライメント、分散ファイナンス(DeFi)、暗号通貨、デジタル経済。

Cryptocurrency can be understood as a digital asset transacted among participants in the crypto economy. Every cryptocurrency must have an associated Blockchain. Blockchain is a Distributed Ledger Technology (DLT) which supports cryptocurrencies, this may be considered as the most promising disruptive technology in the industry 4.0 context. Decentralized finance (DeFi) is a Blockchain-based financial infrastructure, the term generally refers to an open, permissionless, and highly interoperable protocol stack built on public smart contract platforms, such as the Ethereum Blockchain. It replicates existing financial services in a more open and transparent way. DeFi does not rely on intermediaries and centralized institutions. Instead, it is based on open protocols and decentralized applications (Dapps). Considering that there are many digital coins, stablecoins and central bank digital currencies (CBDCs), these currencies should interact among each other sometime. For this interaction the Information Technology elements play an important whole as enablers and IT strategic alignment. This paper considers the strategic alignment model proposed by Henderson and Venkatraman (1993) and Luftman (1996). This paper seeks to answer two main questions 1) What are the common IT elements in the DeFi? And 2) How the elements connect to the IT strategic alignment in DeFi? Through a Systematic Literature Review (SLR). Results point out that there are many IT elements already mentioned by literature, however there is a lack in the literature about the connection between IT elements and IT strategic alignment in a Decentralized Finance (DeFi) architectural network. After final considerations, limitations and future research agenda are presented. Keywords: IT Strategic alignment, Decentralized Finance (DeFi), Cryptocurrency, Digital Economy.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# プレックス時系列予測のためのオフザシェルフニューラルネットワークアーキテクチャのコスト

Off-the-Shelf Neural Network Architectures for Forex Time Series Prediction come at a Cost ( http://arxiv.org/abs/2405.10679v1 )

ライセンス: Link先を確認
Theodoros Zafeiriou, Dimitris Kalles, (参考訳) 本研究は,異なるLong Short-Term Memory(LSTM)ニューラルネットワークアーキテクチャと,Forex市場予測のためのANN特化アーキテクチャの比較に焦点をあてる。 我々は,メモリや計算能力などの資源だけでなく,モデルの実行時間も分析する。 我々の目的は、この特殊なアーキテクチャが、フォレックス市場予測においてより良い結果を得るだけでなく、リソースが少なく、LSTMアーキテクチャと比較して短い時間枠で実行できることを実証することである。 この比較分析は、フォレックス市場環境における時系列予測のための2種類のアーキテクチャの適合性に関する重要な洞察を提供する。

Our study focuses on comparing the performance and resource requirements between different Long Short-Term Memory (LSTM) neural network architectures and an ANN specialized architecture for forex market prediction. We analyze the execution time of the models as well as the resources consumed, such as memory and computational power. Our aim is to demonstrate that the specialized architecture not only achieves better results in forex market prediction but also executes using fewer resources and in a shorter time frame compared to LSTM architectures. This comparative analysis will provide significant insights into the suitability of these two types of architectures for time series prediction in the forex market environment.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# 衝突モデルにおける可変非マルコフ力学-コヒーレント輸送への応用

Tunable non-Markovian dynamics in a collision model: an application to coherent transport ( http://arxiv.org/abs/2405.10685v1 )

ライセンス: Link先を確認
Simone Rijavec, Giuseppe Di Pietra, (参考訳) 非マルコビアン性の異なる環境に結合したシステムの情報力学を解析するための衝突モデルを提案する。 量子ビットの固定および剛性貯留層に偏極チャネルを適用することにより、非マルコビアン性の度合いを制御する。 偏極チャネルの効果を特徴付けるとともに、3つの相互作用する量子ビットの連鎖上の励起のコヒーレント輸送を研究するためにモデルを適用する。 システム-環境結合強度と非マルコビアン性の程度がプロセスにどのように影響するかを示す。 興味深いことに、マルコフ環境は励起のコヒーレント輸送を強化するために好まれる場合もある。

We propose a collision model to investigate the information dynamics of a system coupled to an environment with varying degrees of non-Markovianity. We control the degree of non-Markovianity by applying a depolarising channel to a fixed and rigid reservoir of qubits. We characterise the effect of the depolarising channel and apply the model to study the coherent transport of an excitation on a chain of three interacting qubits. We show how the system-environment coupling strength and the degree of non-Markovianity affect the process. Interestingly, in some cases a Markovian environment is preferable to enhance the coherent transport of the excitation.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# Revolutionizing Process Mining: 最適化プロンプトエンジニアリングによるChatGPT統合とユーザエクスペリエンス向上のための新しいアーキテクチャ

Revolutionizing Process Mining: A Novel Architecture for ChatGPT Integration and Enhanced User Experience through Optimized Prompt Engineering ( http://arxiv.org/abs/2405.10689v1 )

ライセンス: Link先を確認
Mehrdad Agha Mohammad Ali Kermani, Hamid Reza Seddighi, Mehrdad Maghsoudi, (参考訳) ビジネスプロセス管理の急速に発展する分野では、複雑なデータを実行可能な洞察に変換する分析ツールの必要性が高まっています。 本研究は,ChatGPTなどの大規模言語モデル(LLM)をプロセスマイニングツールに統合し,プロセス分析をより広く利用可能にする,新たなアプローチを提案する。 この研究は、ChatGPTが分析機能をどのように強化し、ユーザエクスペリエンスを改善し、アクセシビリティを高め、プロセスマイニングツールのアーキテクチャフレームワークを最適化するかを検討することを目的としている。 この研究の重要な革新は、AI生成された出力が正確でコンテキストに関連があることを保証する、各プロセスマイニングサブモジュールのための調整された迅速なエンジニアリング戦略を開発することである。 統合アーキテクチャはExtract, Transform, Load (ETL)プロセスに従っており、様々なプロセスマイニングエンジンモジュールを含み、ゼロショットと最適化されたプロンプトエンジニアリング技術を利用している。 ChatGPTはAPIを介して接続され、プロセスマイニングモジュールから構造化された出力を受け取る。 このアプローチの有効性を検証するために、研究者らは、BehfaLabのプロセスマイニングツールを使用している17社のデータを使用した。 その結果、ユーザエクスペリエンスが大幅に改善され、専門家パネルの72%が"Good"と評価された。 本研究は,プロセスマイニングと人工知能を組み合わせたビジネスプロセス分析手法の進歩に寄与する。 今後の研究方針には、迅速なエンジニアリングのさらなる最適化、他のAI技術との統合の探索、さまざまなビジネス環境におけるスケーラビリティの評価が含まれる。 この研究は、プロセスマイニングと人工知能の交差点における継続的なイノベーションの道を開き、ビジネスがプロセスを分析し最適化する方法に革命をもたらすことを約束する。

In the rapidly evolving field of business process management, there is a growing need for analytical tools that can transform complex data into actionable insights. This research introduces a novel approach by integrating Large Language Models (LLMs), such as ChatGPT, into process mining tools, making process analytics more accessible to a wider audience. The study aims to investigate how ChatGPT enhances analytical capabilities, improves user experience, increases accessibility, and optimizes the architectural frameworks of process mining tools. The key innovation of this research lies in developing a tailored prompt engineering strategy for each process mining submodule, ensuring that the AI-generated outputs are accurate and relevant to the context. The integration architecture follows an Extract, Transform, Load (ETL) process, which includes various process mining engine modules and utilizes zero-shot and optimized prompt engineering techniques. ChatGPT is connected via APIs and receives structured outputs from the process mining modules, enabling conversational interactions. To validate the effectiveness of this approach, the researchers used data from 17 companies that employ BehfaLab's Process Mining Tool. The results showed significant improvements in user experience, with an expert panel rating 72% of the results as "Good". This research contributes to the advancement of business process analysis methodologies by combining process mining with artificial intelligence. Future research directions include further optimization of prompt engineering, exploration of integration with other AI technologies, and assessment of scalability across various business environments. This study paves the way for continuous innovation at the intersection of process mining and artificial intelligence, promising to revolutionize the way businesses analyze and optimize their processes.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# CoLeaF: 弱めに監督されたオーディオ・ビジュアル・ビデオ・パーシングのためのコントラスト協調学習フレームワーク

CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing ( http://arxiv.org/abs/2405.10690v1 )

ライセンス: Link先を確認
Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton, (参考訳) 弱教師付きオーディオ視覚ビデオ解析(AVVP)手法は、ビデオレベルラベルのみを用いて、可聴性のみ、可視性のみ、可聴性のみを検出することを目的としている。 既存のアプローチでは、単調なコンテキストとクロスモーダルなコンテキストを活用することで、この問題に対処している。 しかし, クロスモーダル学習は, 可聴事象の検出に有用であるが, 弱教師付きシナリオでは, 無関係なモダリティ情報を導入することにより, 不整合性事象や可視性事象に悪影響を及ぼすと論じている。 本稿では,組込み空間におけるクロスモーダルコンテキストの統合を最適化する新しい学習フレームワークであるCoLeaFを提案する。 さらに、ビデオは複雑なクラス関係を伴うことが多いため、それらをモデル化することでパフォーマンスが向上する。 しかし、これはネットワークに余分な計算コストをもたらす。 我々のフレームワークは、推論時に余分な計算を発生させることなく、トレーニング中にクラス間の関係を活用するように設計されている。 さらに,AVVPを実行する際の手法の能力を評価するための新しい指標を提案する。 我々の広範な実験により、CoLeaF は LLP と UnAV-100 のデータセットでそれぞれ平均 1.9% と 2.4% のFスコアで最先端の結果を大幅に改善することが示された。

Weakly supervised audio-visual video parsing (AVVP) methods aim to detect audible-only, visible-only, and audible-visible events using only video-level labels. Existing approaches tackle this by leveraging unimodal and cross-modal contexts. However, we argue that while cross-modal learning is beneficial for detecting audible-visible events, in the weakly supervised scenario, it negatively impacts unaligned audible or visible events by introducing irrelevant modality information. In this paper, we propose CoLeaF, a novel learning framework that optimizes the integration of cross-modal context in the embedding space such that the network explicitly learns to combine cross-modal information for audible-visible events while filtering them out for unaligned events. Additionally, as videos often involve complex class relationships, modelling them improves performance. However, this introduces extra computational costs into the network. Our framework is designed to leverage cross-class relationships during training without incurring additional computations at inference. Furthermore, we propose new metrics to better evaluate a method's capabilities in performing AVVP. Our extensive experiments demonstrate that CoLeaF significantly improves the state-of-the-art results by an average of 1.9% and 2.4% F-score on the LLP and UnAV-100 datasets, respectively.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# LoCI-DiffCom:3次元脳画像補完のための経時的一貫性インフォームド拡散モデル

LoCI-DiffCom: Longitudinal Consistency-Informed Diffusion Model for 3D Infant Brain Image Completion ( http://arxiv.org/abs/2405.10691v1 )

ライセンス: Link先を確認
Zihao Zhu, Tianli Tao, Yitian Tao, Haowen Deng, Xinyi Cai, Gaofeng Wu, Kaidong Wang, Haifeng Tang, Lixuan Zhu, Zhuoyang Gu, Jiawei Huang, Dinggang Shen, Han Zhang, (参考訳) 乳児の脳は生後数年で急速に発達し、横断的な研究と比較すると、乳児の脳の発達の軌跡を高い精度、統計力、柔軟性で表すことができるが、乳児の経時的磁気共鳴(MR)データの収集は悪名高い問題に悩まされ、不完全なデータセットが欠落した。 この制限は、その後の神経科学と臨床モデリングを著しく阻害する。 しかし、既存の深部生成モデルは、スパースデータと、発達する脳の非線形で劇的なコントラスト/幾何学的変化のために、脳画像の完成を欠いている。 乳幼児の脳画像コンプリートのための新しい長周期整合インフォームド拡散モデルであるLoCI-DiffComを提案する。 設計した LoCI モジュールは,2つの時間的点からのデータにのみ依存して,高度にスパースなシーケンスで動作することができる。 年齢差の偏りや多様性は大きいが,本手法はコンテキスト認識の整合性を確保しつつ,個別化された発達特徴を抽出することができる。 乳幼児大脳MRデータセットを用いた実験では, 乳幼児大脳MR像の消失例においても, 乳幼児大脳MR像の再現性が向上し, 発達過程の経時的変化が改善した。

The infant brain undergoes rapid development in the first few years after birth.Compared to cross-sectional studies, longitudinal studies can depict the trajectories of infants brain development with higher accuracy, statistical power and flexibility.However, the collection of infant longitudinal magnetic resonance (MR) data suffers a notorious dropout problem, resulting in incomplete datasets with missing time points. This limitation significantly impedes subsequent neuroscience and clinical modeling. Yet, existing deep generative models are facing difficulties in missing brain image completion, due to sparse data and the nonlinear, dramatic contrast/geometric variations in the developing brain. We propose LoCI-DiffCom, a novel Longitudinal Consistency-Informed Diffusion model for infant brain image Completion,which integrates the images from preceding and subsequent time points to guide a diffusion model for generating high-fidelity missing data. Our designed LoCI module can work on highly sparse sequences, relying solely on data from two temporal points. Despite wide separation and diversity between age time points, our approach can extract individualized developmental features while ensuring context-aware consistency. Our experiments on a large infant brain MR dataset demonstrate its effectiveness with consistent performance on missing infant brain MR completion even in big gap scenarios, aiding in better delineation of early developmental trajectories.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# 高度繊維リサイクルのための自律型AI対応産業用ソーティングパイプライン

Autonomous AI-enabled Industrial Sorting Pipeline for Advanced Textile Recycling ( http://arxiv.org/abs/2405.10696v1 )

ライセンス: Link先を確認
Yannis Spyridis, Vasileios Argyriou, Antonios Sarigiannidis, Panagiotis Radoglou, Panagiotis Sarigiannidis, (参考訳) 繊維廃棄物の増大は, 環境への影響を緩和し, ファッション産業の持続可能性を高めるために, 革新的な廃棄物管理ソリューションを必要としている。 本稿では, 自律型繊維分析パイプラインを導入することで, 従来の繊維選別手法の非効率性について論じる。 ロボット工学、スペクトルイメージング、AIによる分類を利用して、我々のシステムは繊維選別プロセスの正確性、効率、スケーラビリティを高め、廃棄物管理に対するより持続的で循環的なアプローチに寄与する。 デジタルツインシステムの統合により、技術的および経済的実現可能性の批判的評価が可能になり、ソートシステムの正確性と信頼性に関する貴重な洞察を提供する。 提案されたフレームワークは、Industrial 4.0の原則にインスパイアされ、システム内のシームレスなデータ交換と調整を容易にする5つの相互接続層で構成されている。 予備的な結果は, 環境影響を緩和し, 繊維産業におけるリサイクルへのポジティブなシフトを促進するための総合的アプローチの可能性を強調している。

The escalating volumes of textile waste globally necessitate innovative waste management solutions to mitigate the environmental impact and promote sustainability in the fashion industry. This paper addresses the inefficiencies of traditional textile sorting methods by introducing an autonomous textile analysis pipeline. Utilising robotics, spectral imaging, and AI-driven classification, our system enhances the accuracy, efficiency, and scalability of textile sorting processes, contributing to a more sustainable and circular approach to waste management. The integration of a Digital Twin system further allows critical evaluation of technical and economic feasibility, providing valuable insights into the sorting system's accuracy and reliability. The proposed framework, inspired by Industry 4.0 principles, comprises five interconnected layers facilitating seamless data exchange and coordination within the system. Preliminary results highlight the potential of our holistic approach to mitigate environmental impact and foster a positive shift towards recycling in the textile industry.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# 非断熱部分幾何学相とその量子遷移への応用

The Non-Adiabatic Sub-Geometric Phase and Its Application on Quantum Transition ( http://arxiv.org/abs/2405.10697v1 )

ライセンス: Link先を確認
Zheng-Chuan Wang, (参考訳) 密度行列[1]に関する断熱幾何学的位相に基づいて、非断熱的場合の準幾何学的位相に拡張する。 サブ幾何学相の本当の部分や想像上の部分は、量子遷移において重要な役割を果たす。 サブ幾何学相の想像的部分は、量子遷移の共鳴ピークを逸脱し、これはレベル交差の修正をもたらす可能性があるが、サブ幾何学相の真の部分は線形安定解析理論に従って初期状態の安定性を決定する。 最後に、これらを2つの例で説明する: 1つは時間に依存した摂動を持つシステムで、もう1つは2段階のシステムである。 これは、サブ幾何学相の実部と虚部の両方が量子遷移に影響を及ぼすことを示している。

Based on the adiabatic geometric phase concerning with density matrix[1] , we extend it to the sub-geometric phase in the non-adiabatic case. It is found that whatever the real part or imaginary part of the sub-geometric phase can play an important role in quantum transition. The imaginary part of sub-geometric phase can deviate the resonance peak in the quantum transition, which may bring modification on the level crossing, while the real part of sub-geometric phase will determine the stability of initial state according to the linear stability analysis theory, which can be regarded as somewhat complement on the selection rule of quantum transition. Finally, we illustrate them by two examples: one is the system with time-dependent perturbation, the other is a two-level system. It indicates that both the real and imaginary parts of sub-geometric phase have influence on quantum transition.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# SynDy:誤情報処理のための動的データセット生成フレームワーク

SynDy: Synthetic Dynamic Dataset Generation Framework for Misinformation Tasks ( http://arxiv.org/abs/2405.10700v1 )

ライセンス: Link先を確認
Michael Shliselberg, Ashkan Kazemi, Scott A. Hale, Shiri Dori-Hacohen, (参考訳) ディアスポラのコミュニティは、オフザラダーの誤報によって不当に影響を受け、しばしば主流のファクトチェックの取り組みによって無視され、初期段階のファクトチェックのイニシアチブをスケールアップするための重要なニーズを生み出している。 本稿では,Large Language Models (LLMs) の能力を生かして,局所的な特化言語モデルを訓練する,Synthetic Dynamic Dataset Generation のフレームワークであるSynDyを提案する。 我々の知る限り、SynDyはLLMを利用した最初の論文であり、誤情報軽減、すなわち、クラムマッチング、トピカルクラスタリング、およびクラム関係分類に直接関連のあるタスクのためのきめ細かい合成ラベルを作成する。 SynDyは、LLMとソーシャルメディアクエリを使用して、これらの3つのタスクに合成ラベルを付けた、遠くに監督された、トポロジにフォーカスしたデータセットを自動的に生成し、人間によるファクトチェックを、人間による注釈付きデータのコストのごく一部でスケールアップするための重要なツールを提供する。 SynDyが生成したラベルのトレーニングは、標準的なベースラインよりも改善されており、人間ラベルのトレーニング(取得が不可能な可能性がある)に比べれば、それほど悪くはない。 SynDyはMeedanのチャットボットのチップラインに統合されており、50以上の組織が使用し、年間230万以上のユーザにサービスを提供し、WhatsAppなどのメッセージングアプリを通じて自動的に人書きのファクトチェックを配布する。 SynDyはデプロイされたCo-Insightsツールキットにも統合され、低リソースの組織がコミュニティにヒントを提供することができます。 最後に,SynDyにより,一般的な誤情報トピックに関する高品質な説明者に対して,新たな誤情報クレームをマッチングするなどのファクトチェックツールが利用可能になることを期待している。

Diaspora communities are disproportionately impacted by off-the-radar misinformation and often neglected by mainstream fact-checking efforts, creating a critical need to scale-up efforts of nascent fact-checking initiatives. In this paper we present SynDy, a framework for Synthetic Dynamic Dataset Generation to leverage the capabilities of the largest frontier Large Language Models (LLMs) to train local, specialized language models. To the best of our knowledge, SynDy is the first paper utilizing LLMs to create fine-grained synthetic labels for tasks of direct relevance to misinformation mitigation, namely Claim Matching, Topical Clustering, and Claim Relationship Classification. SynDy utilizes LLMs and social media queries to automatically generate distantly-supervised, topically-focused datasets with synthetic labels on these three tasks, providing essential tools to scale up human-led fact-checking at a fraction of the cost of human-annotated data. Training on SynDy's generated labels shows improvement over a standard baseline and is not significantly worse compared to training on human labels (which may be infeasible to acquire). SynDy is being integrated into Meedan's chatbot tiplines that are used by over 50 organizations, serve over 230K users annually, and automatically distribute human-written fact-checks via messaging apps such as WhatsApp. SynDy will also be integrated into our deployed Co-Insights toolkit, enabling low-resource organizations to launch tiplines for their communities. Finally, we envision SynDy enabling additional fact-checking tools such as matching new misinformation claims to high-quality explainers on common misinformation topics.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# 裁判所法定分析に先立つ権限の行使: 保護文書分類と解釈のための透明かつアクセス可能なデータセット

Empowering Prior to Court Legal Analysis: A Transparent and Accessible Dataset for Defensive Statement Classification and Interpretation ( http://arxiv.org/abs/2405.10702v1 )

ライセンス: Link先を確認
Yannis Spyridis, Jean-Paul, Haneen Deeb, Vasileios Argyriou, (参考訳) 警察の面接中に個人によって提供される声明の分類は、自然言語処理(NLP)と法的な情報処理の領域において複雑で重要な課題である。 広範囲にわたるドメイン固有データセットの欠如は、この分野におけるNLPメソッドの進歩に課題を提起する。 本論は, 裁判所の手続きに先立って, 警察インタビューにおける文の分類に適した新しいデータセットを導入することで, 現状の課題に対処することを目的とする。 学習と評価のためにキュレートされたデータセットを利用することで、直感的な文と真偽を区別する最先端のパフォーマンスを実現するための微調整DistilBERTモデルを導入する。 解釈可能性を高めるために、モデルの決定過程を解釈するサリエンシマップを通して説明可能性を提供するために、説明可能な人工知能(XAI)手法を用いる。 最後に、法律専門家と非専門主義者の両方が、私たちのシステムと対話し、利益を得ることを可能にするXAIインターフェースを提示します。 本モデルは86%の精度を達成し, 比較検討において, カスタムトランスフォーマーアーキテクチャを上回る性能を示した。 この全体論的アプローチは、法的実践と研究の両方に有望な意味を持ちながら、ステートメント分析のアクセシビリティ、透明性、有効性を向上させる。

The classification of statements provided by individuals during police interviews is a complex and significant task within the domain of natural language processing (NLP) and legal informatics. The lack of extensive domain-specific datasets raises challenges to the advancement of NLP methods in the field. This paper aims to address some of the present challenges by introducing a novel dataset tailored for classification of statements made during police interviews, prior to court proceedings. Utilising the curated dataset for training and evaluation, we introduce a fine-tuned DistilBERT model that achieves state-of-the-art performance in distinguishing truthful from deceptive statements. To enhance interpretability, we employ explainable artificial intelligence (XAI) methods to offer explainability through saliency maps, that interpret the model's decision-making process. Lastly, we present an XAI interface that empowers both legal professionals and non-specialists to interact with and benefit from our system. Our model achieves an accuracy of 86%, and is shown to outperform a custom transformer architecture in a comparative study. This holistic approach advances the accessibility, transparency, and effectiveness of statement analysis, with promising implications for both legal practice and research.
翻訳日:2024-05-20 16:22:57 公開日:2024-05-17
# Sparse-View Dynamic DSA画像からの3次元血管再構成

3D Vessel Reconstruction from Sparse-View Dynamic DSA Images via Vessel Probability Guided Attenuation Learning ( http://arxiv.org/abs/2405.10705v1 )

ライセンス: Link先を確認
Zhentao Liu, Huangxuan Zhao, Wenhui Qin, Zhenghong Zhou, Xinggang Wang, Wenping Wang, Xiaochun Lai, Chuansheng Zheng, Dinggang Shen, Zhiming Cui, (参考訳) DSA(Digital Subtraction Angiography)は、血管疾患の診断における金の基準の一つである。 造影剤の助けを借りて、時間分解された2D DSA画像は血流情報に関する総合的な洞察を与え、3D血管構造の再構築に利用することができる。 現在の商用DSAシステムでは、復元のために数百のスキャンビューを要求され、結果としてかなりの放射線にさらされる。 しかし, 放射線量削減を目的とした軽視的DSA再建は, 研究コミュニティではまだ過小評価されている。 スパース・ビューDSA画像のダイナミックな血流と不十分な入力は,3次元血管再建作業において重要な課題である。 本研究では,時間に依存しない容器確率場を用いてこの問題を効果的に解決することを提案する。 我々のアプローチは、血管の確率誘導減衰学習と呼ばれ、DSAイメージングは静的および動的減衰場の相補的な重み付けの組み合わせであり、血管の確率場に由来する重み付けである。 動的マスクとして機能する容器確率は、異なるシーンタイプに適応する静的フィールドと動的フィールドの両方に対して適切な勾配を与える。 この機構は静的背景と動的コントラストエージェントフローの自己制御分解を促進し、再構成品質を著しく向上させる。 本モデルは,合成プロジェクションと実写DSA画像との相違を最小化することにより訓練される。 さらに, 再現性向上のためのトレーニング戦略として, 1) 幾何性向上のための粗大なプログレッシブトレーニング, (2) 時間的整合性を強制するための時間的摂動レンダリング損失の2つが採用されている。 実験結果から,3次元血管再建と2次元画像合成において良好な品質が得られた。

Digital Subtraction Angiography (DSA) is one of the gold standards in vascular disease diagnosing. With the help of contrast agent, time-resolved 2D DSA images deliver comprehensive insights into blood flow information and can be utilized to reconstruct 3D vessel structures. Current commercial DSA systems typically demand hundreds of scanning views to perform reconstruction, resulting in substantial radiation exposure. However, sparse-view DSA reconstruction, aimed at reducing radiation dosage, is still underexplored in the research community. The dynamic blood flow and insufficient input of sparse-view DSA images present significant challenges to the 3D vessel reconstruction task. In this study, we propose to use a time-agnostic vessel probability field to solve this problem effectively. Our approach, termed as vessel probability guided attenuation learning, represents the DSA imaging as a complementary weighted combination of static and dynamic attenuation fields, with the weights derived from the vessel probability field. Functioning as a dynamic mask, vessel probability provides proper gradients for both static and dynamic fields adaptive to different scene types. This mechanism facilitates a self-supervised decomposition between static backgrounds and dynamic contrast agent flow, and significantly improves the reconstruction quality. Our model is trained by minimizing the disparity between synthesized projections and real captured DSA images. We further employ two training strategies to improve our reconstruction quality: (1) coarse-to-fine progressive training to achieve better geometry and (2) temporal perturbed rendering loss to enforce temporal consistency. Experimental results have demonstrated superior quality on both 3D vessel reconstruction and 2D view synthesis.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# アルゴリズムによる意思決定における人間とループの整合性

Challenging the Human-in-the-loop in Algorithmic Decision-making ( http://arxiv.org/abs/2405.10706v1 )

ライセンス: Link先を確認
Sebastian Tschiatschek, Eugenia Stamboliev, Timoth ee Schmude, Mark Coeckelbergh, Laura Koesten, (参考訳) 技術的・哲学的な観点から,社会問題に対するアルゴリズム意思決定(ADM)における人間の役割を論じる。 特に、関係する人間による様々な期待、価値観、制約から生じる緊張について説明する。 この目的のために、戦略的意思決定者(SDM)がADMを導入し、戦略的および社会的目標を最適化し、アルゴリズムの推奨行動は、最終的な決定を行う実践的意思決定者(PDM)によって監督されると仮定する。 通常、PDMは正当であると仮定されるが、これらの値の不正な調整とPDMの情報要求のため、SDMの望ましい目標と社会的価値の実現に反する可能性がある。 これは、ADMの利害関係者間の権力分配、その制約、および情報要求に重大な影響を及ぼす。 特に、戦略的、価値駆動的な目標と地上での個人的決定と制約のバランスをとることを期待する政治的・倫理的な意思決定者としてのPDMの役割の監督を強調します。 我々は、機械学習ベンチマークデータセットにおいて、PDMがアルゴリズムの推奨と異なる限られたアクションのみを実行することを制約されている場合でも、PDMの決定を監督する重大な影響を実証的に示す。 SDMが意図する値を実現するためには、適切な情報を提供し、その役割を明確化する必要がある。 本研究は, PDMの役割と能力について深く議論することの必要性を強調し, ADMに人為的なループを含めることで, システムの「正しい」「倫理的な」機能を保証するという, しばしば取り上げられる見解に挑戦するものである。

We discuss the role of humans in algorithmic decision-making (ADM) for socially relevant problems from a technical and philosophical perspective. In particular, we illustrate tensions arising from diverse expectations, values, and constraints by and on the humans involved. To this end, we assume that a strategic decision-maker (SDM) introduces ADM to optimize strategic and societal goals while the algorithms' recommended actions are overseen by a practical decision-maker (PDM) - a specific human-in-the-loop - who makes the final decisions. While the PDM is typically assumed to be a corrective, it can counteract the realization of the SDM's desired goals and societal values not least because of a misalignment of these values and unmet information needs of the PDM. This has significant implications for the distribution of power between the stakeholders in ADM, their constraints, and information needs. In particular, we emphasize the overseeing PDM's role as a potential political and ethical decision maker, who acts expected to balance strategic, value-driven objectives and on-the-ground individual decisions and constraints. We demonstrate empirically, on a machine learning benchmark dataset, the significant impact an overseeing PDM's decisions can have even if the PDM is constrained to performing only a limited amount of actions differing from the algorithms' recommendations. To ensure that the SDM's intended values are realized, the PDM needs to be provided with appropriate information conveyed through tailored explanations and its role must be characterized clearly. Our findings emphasize the need for an in-depth discussion of the role and power of the PDM and challenge the often-taken view that just including a human-in-the-loop in ADM ensures the 'correct' and 'ethical' functioning of the system.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# HARIS: 参照画像セグメンテーションのための人間的な注意

HARIS: Human-Like Attention for Reference Image Segmentation ( http://arxiv.org/abs/2405.10707v1 )

ライセンス: Link先を確認
Mengxi Zhang, Heqing Lian, Yiming Liu, Kang Rong, Jie Chen, (参考訳) Referring Image segmentation (RIS) は、言語表現に対応する特定の領域を特定することを目的としている。 既存の方法は、異なるモダリティの機能を \emph{bottom-up} の方法で組み込む。 この設計では、不要な画像テキストペアが得られ、不正確なセグメンテーションマスクにつながる可能性がある。 本稿では,Human-Like Attention機構を導入し,パラメータ効率の良い微細チューニング(PEFT)フレームワークを用いた参照画像分割手法HARISを提案する。 具体的に言うと、Human-Like Attentionはマルチモーダル機能から \emph{feedback} シグナルを受け取り、ネットワークを特定のオブジェクトに集中させ、無関係な画像とテキストのペアを破棄する。 さらに,事前学習したエンコーダのゼロショット能力を維持するために,PEFTフレームワークを導入する。 3つのRISベンチマークとPhraseCutデータセットの大規模な実験により,本手法が最先端性能とゼロショット能力を実現することを示す。

Referring image segmentation (RIS) aims to locate the particular region corresponding to the language expression. Existing methods incorporate features from different modalities in a \emph{bottom-up} manner. This design may get some unnecessary image-text pairs, which leads to an inaccurate segmentation mask. In this paper, we propose a referring image segmentation method called HARIS, which introduces the Human-Like Attention mechanism and uses the parameter-efficient fine-tuning (PEFT) framework. To be specific, the Human-Like Attention gets a \emph{feedback} signal from multi-modal features, which makes the network center on the specific objects and discard the irrelevant image-text pairs. Besides, we introduce the PEFT framework to preserve the zero-shot ability of pre-trained encoders. Extensive experiments on three widely used RIS benchmarks and the PhraseCut dataset demonstrate that our method achieves state-of-the-art performance and great zero-shot ability.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# マルチダイポール光マター系における量子相転移

Quantum Phase Transitions in Many-Dipole Light-Matter Systems ( http://arxiv.org/abs/2405.10711v1 )

ライセンス: Link先を確認
Daniele Lamberto, Omar Di Stefano, Stephen Hughes, Franco Nori, Salvatore Savasta, (参考訳) 多重双極子光マター系における正規基底状態と光子凝縮基底状態の間のポテンシャル相転移は、ノーゴーと反ノーゴーの定理に矛盾し、しばしば不確定なモデルによって引き起こされるかなりの論争のトピックである。 この長期的議論は、3次元立方体格子とキャビティ埋め込み正方形格子層を含む2つの特定の原子配列を解析し、熱力学限界に重なり合う双極子を持つ単一モードキャビティQEDの物理モデルを提供する。 これらのモデルは標準ディックモデルと大きく異なることが示され、熱力学の極限では、再正規化されたホップフィールドモデルが生じる。 強誘電性相転移は(原理上)まだ起こりうることを示し、臨界点を超えた異常相の記述には、ホルシュタイン・プリマコフ写像に非線形項を含める必要がある。 また、我々のモデルは最近の実験とどのように一致しているかを示す。

A potential phase transition between a normal ground state and a photon-condensed ground state in many-dipole light-matter systems is a topic of considerable controversy, exasperated by conflicting no-go and counter no-go theorems and often ill-defined models. We clarify this long-lasting debate by analyzing two specific arrangements of atoms, including a 3D cubic lattice and a cavity-embedded square lattice layer, which provides a physical model for single-mode cavity QED with coupled dipoles in the thermodynamic limit. These models are shown to significantly differ from the standard Dicke model and, in the thermodynamic limit, give rise to renormalized Hopfield models. We show that a ferroelectric phase transition can (in principle) still occur and the description of the abnormal phase beyond the critical point requires the inclusion of nonlinear terms in the Holstein-Primakoff mapping. We also show how our model agrees with recent experiments.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# 不均一データ統合のためのセマンティックスに基づく分散ミドルウェアの開発と干ばつへの応用

Development of Semantics-Based Distributed Middleware for Heterogeneous Data Integration and its Application for Drought ( http://arxiv.org/abs/2405.10713v1 )

ライセンス: Link先を確認
A Akanbi, (参考訳) 干ばつは、世界中の何百万人もの人々やコミュニティに影響を与える複雑な環境現象であり、正確に予測するには難しすぎる。 これは主に、様々な種類の干ばつの発生を直接間接的に引き起こす環境パラメータのWebのスケーラビリティと変動性に起因する。 人類の夜明け以来、環境現象の兆候を示す自然の指標をユニークに理解するための努力が続けられてきた。 これらの指標・記号は先住民の知識体系の形で代々用いられてきた。 しかし、干ばつの複雑な複雑さは、常に正確な干ばつ予測と予測システムにとって大きな障害となっている。 近年,農業・環境モニタリング分野の科学者が,信頼性の高い干ばつ予測のために多様な環境情報を統合するために,より正確な環境予測システムのための土着知識と科学的知識の統合について議論している。 したがって、本研究では、現地の知識とセンサデータの異質なデータモデルを含むセマンティックスに基づくデータ統合ミドルウェアを開発し、研究領域の正確な干ばつ予測システムを構築することを目的としている。 ドメインの専門家が収集した干ばつに関する現地の知識は、ミドルウェアの自動推論生成モジュールを介して干ばつの発生を決定するセンサデータと合わせて、誘引推論を行うためのルールに変換される。 セマンティックミドルウェアには、リアルタイムストリーム処理のためのApache Kafkaベースのストリーミングデータ処理エンジンと、ルールベースの推論モジュール、知識ベースの意味表現のためのオントロジーモジュールで構成される分散アーキテクチャであるInter aliaが含まれている。

Drought is a complex environmental phenomenon that affects millions of people and communities all over the globe and is too elusive to be accurately predicted. This is mostly due to the scalability and variability of the web of environmental parameters that directly/indirectly causes the onset of different categories of drought. Since the dawn of man, efforts have been made to uniquely understand the natural indicators that provide signs of likely environmental events. These indicators/signs in the form of indigenous knowledge system have been used for generations. The intricate complexity of drought has, however, always been a major stumbling block for accurate drought prediction and forecasting systems. Recently, scientists in the field of agriculture and environmental monitoring have been discussing the integration of indigenous knowledge and scientific knowledge for a more accurate environmental forecasting system in order to incorporate diverse environmental information for a reliable drought forecast. Hence, in this research, the core objective is the development of a semantics-based data integration middleware that encompasses and integrates heterogeneous data models of local indigenous knowledge and sensor data towards an accurate drought forecasting system for the study areas. The local indigenous knowledge on drought gathered from the domain experts is transformed into rules to be used for performing deductive inference in conjunction with sensors data for determining the onset of drought through an automated inference generation module of the middleware. The semantic middleware incorporates, inter alia, a distributed architecture that consists of a streaming data processing engine based on Apache Kafka for real-time stream processing; a rule-based reasoning module; an ontology module for semantic representation of the knowledge bases.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# ペルシャの代名詞解決 - ニューラルネットワークと言語モデルを活用する

Persian Pronoun Resolution: Leveraging Neural Networks and Language Models ( http://arxiv.org/abs/2405.10714v1 )

ライセンス: Link先を確認
Hassan Haji Mohammadi, Alireza Talebpour, Ahmad Mahmoudi Aznaveh, Samaneh Yazdani, (参考訳) 一致解決は、同じ実体を参照するテキストエンティティを識別するために重要であり、代名詞解決の課題に直面し、特に代名詞先行者を特定する。 既存の手法では、代名詞分解を参照検出とは別のタスクとして扱うことが多く、潜在的に貴重な情報が欠落している。 本研究では,ParsBERTのような事前学習型トランスフォーマーモデルを利用して,ペルシャ代名詞分解のための最初のエンドツーエンドニューラルネットワークシステムを提案する。 我々のシステムは参照検出と先行リンクの両方を共同で最適化し、Mehrコーパス上の従来の最先端システム(ルールベースおよび統計的手法に依存していた)よりも3.37F1スコアの改善を実現した。 この顕著な改善は、ニューラルネットワークと言語モデルを組み合わせることの有効性を示し、ペルシア代名詞の解像度が大幅に向上し、この未探索領域におけるさらなる研究の道を開く可能性がある。

Coreference resolution, critical for identifying textual entities referencing the same entity, faces challenges in pronoun resolution, particularly identifying pronoun antecedents. Existing methods often treat pronoun resolution as a separate task from mention detection, potentially missing valuable information. This study proposes the first end-to-end neural network system for Persian pronoun resolution, leveraging pre-trained Transformer models like ParsBERT. Our system jointly optimizes both mention detection and antecedent linking, achieving a 3.37 F1 score improvement over the previous state-of-the-art system (which relied on rule-based and statistical methods) on the Mehr corpus. This significant improvement demonstrates the effectiveness of combining neural networks with linguistic models, potentially marking a significant advancement in Persian pronoun resolution and paving the way for further research in this under-explored area.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# SignLLM:手話が大規模言語モデルを生産する

SignLLM: Sign Languages Production Large Language Models ( http://arxiv.org/abs/2405.10718v1 )

ライセンス: Link先を確認
Sen Fang, Lei Wang, Ce Zheng, Yapeng Tian, Chen Chen, (参考訳) 本稿では,ASL(American Sign Language)を含む公開データから構築した,Prompt2Signという,最初の総合的な多言語手話データセットを紹介する。 私たちのデータセットは、大量のビデオを合理化してモデルフレンドリなフォーマットに変換し、Seq2seqやtext2textのような翻訳モデルでトレーニングするために最適化します。 この新たなデータセットに基づいて、入力テキストやプロンプトから手話ジェスチャを生成するための2つの新しい多言語SLPモードを含む、最初の多言語手話生成(SLP)モデルであるSignLLMを提案する。 どちらのモードも、新しい損失と強化学習に基づくモジュールを使用して、高品質なデータを自律的にサンプリングするモデルの能力を強化することで、トレーニングを加速することができる。 本稿では,8つの手話言語を対象としたSLPタスクの最先端性能を示すSignLLMのベンチマーク結果を示す。

In this paper, we introduce the first comprehensive multilingual sign language dataset named Prompt2Sign, which builds from public data including American Sign Language (ASL) and seven others. Our dataset transforms a vast array of videos into a streamlined, model-friendly format, optimized for training with translation models like seq2seq and text2text. Building on this new dataset, we propose SignLLM, the first multilingual Sign Language Production (SLP) model, which includes two novel multilingual SLP modes that allow for the generation of sign language gestures from input text or prompt. Both of the modes can use a new loss and a module based on reinforcement learning, which accelerates the training by enhancing the model's capability to autonomously sample high-quality data. We present benchmark results of SignLLM, which demonstrate that our model achieves state-of-the-art performance on SLP tasks across eight sign languages.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# $\ell_1$-regularized generalized Least Squares

$\ell_1$-Regularized Generalized Least Squares ( http://arxiv.org/abs/2405.10719v1 )

ライセンス: Link先を確認
Kaveh S. Nobari, Alex Gibberd, (参考訳) 本稿では,自己相関誤差のある高次元回帰に対する$\ell_1$-regularized GLS推定器を提案する。 我々は,高度に永続的な自己回帰誤差を許容するフレームワークにおいて,推定精度の非漸近オラクル不等式を確立する。 実際には、GLSを実装するのに必要なWhitening行列は無視され、この行列に対して実現可能な推定器を示し、一貫性を導出し、最終的に提案したGLSがLASSOの最適性能(エラーがホワイトノイズであるかのように)を正確に回復できることを示す。 提案手法の性能をシミュレーションにより検証し,提案手法が有意な相関を示す場合の符号回復と推定誤差で性能を向上する一方,白色雑音の場合にはLDS-LASSO推定器がLASSOと同等に動作することを示す。

In this paper we propose an $\ell_1$-regularized GLS estimator for high-dimensional regressions with potentially autocorrelated errors. We establish non-asymptotic oracle inequalities for estimation accuracy in a framework that allows for highly persistent autoregressive errors. In practice, the Whitening matrix required to implement the GLS is unkown, we present a feasible estimator for this matrix, derive consistency results and ultimately show how our proposed feasible GLS can recover closely the optimal performance (as if the errors were a white noise) of the LASSO. A simulation study verifies the performance of the proposed method, demonstrating that the penalized (feasible) GLS-LASSO estimator performs on par with the LASSO in the case of white noise errors, whilst outperforming it in terms of sign-recovery and estimation error when the errors exhibit significant correlation.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# Eddeep:ディープラーニングを用いた拡散MRIの高速渦電流歪み補正

Eddeep: Fast eddy-current distortion correction for diffusion MRI with deep learning ( http://arxiv.org/abs/2405.10723v1 )

ライセンス: Link先を確認
Antoine Legouhy, Ross Callaghan, Whitney Stee, Philippe Peigneux, Hojjat Azadbakht, Hui Zhang, (参考訳) 現代の拡散MRIシークエンスは通常、異なる強度や方向の拡散感度勾配を持つ大量のボリュームを取得する。 このようなシーケンスは、適切なスキャン時間を達成するために、エコープラナーイメージング(EPI)に依存している。 しかし、EPIは非共鳴効果に弱いため、組織感受性と渦電流誘発歪みを引き起こす。 後者は、ボリューム間の不一致を引き起こし、下流のモデリングと分析を混乱させるため、特に問題となる。 渦歪みの基本的な補正は通常、画像登録を伴う取得後に行われる。 しかし、体積間の対応性は、異なる方向と適用勾配の強度によって引き起こされる体積特異的信号減衰によって著しく破壊されるため、これは非自明である。 この課題は人気のあるFSL~Eddyツールによって解決されているが、かなりの計算コストで解決されている。 本稿では,ディープラーニング(DL)によって実現された画像処理の最近の進歩を活かした代替手法を提案する。 2つの畳み込みニューラルネットワークで構成される。 1) 画像間の対応を回復する画像翻訳装置 2)翻訳画像の整列のための登録モデル。 その結果、FSL~Eddyに匹敵する歪みの推定値を示し、サンプルサイズを適度に訓練するしかなかった。 この研究は、私たちの知る限りでは、ディープラーニングでこの問題に最初に取り組みます。 最近開発されたDLベースの感受性補正技術とともに、拡散MRIのリアルタイム前処理の道を開いた。

Modern diffusion MRI sequences commonly acquire a large number of volumes with diffusion sensitization gradients of differing strengths or directions. Such sequences rely on echo-planar imaging (EPI) to achieve reasonable scan duration. However, EPI is vulnerable to off-resonance effects, leading to tissue susceptibility and eddy-current induced distortions. The latter is particularly problematic because it causes misalignment between volumes, disrupting downstream modelling and analysis. The essential correction of eddy distortions is typically done post-acquisition, with image registration. However, this is non-trivial because correspondence between volumes can be severely disrupted due to volume-specific signal attenuations induced by varying directions and strengths of the applied gradients. This challenge has been successfully addressed by the popular FSL~Eddy tool but at considerable computational cost. We propose an alternative approach, leveraging recent advances in image processing enabled by deep learning (DL). It consists of two convolutional neural networks: 1) An image translator to restore correspondence between images; 2) A registration model to align the translated images. Results demonstrate comparable distortion estimates to FSL~Eddy, while requiring only modest training sample sizes. This work, to the best of our knowledge, is the first to tackle this problem with deep learning. Together with recently developed DL-based susceptibility correction techniques, they pave the way for real-time preprocessing of diffusion MRI, facilitating its wider uptake in the clinic.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# INDUS:科学応用のための効率的かつ効率的な言語モデル

INDUS: Effective and Efficient Language Models for Scientific Applications ( http://arxiv.org/abs/2405.10725v1 )

ライセンス: Link先を確認
Bishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee, (参考訳) 言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。 しかし、以前の研究では、ドメイン中心のコーパスを使用して訓練されたLLMが、専門的なタスクでより良く機能することを示した。 この中心的な洞察に触発されて、地球科学、生物学、物理学、ヘリオ物理、惑星科学、天体物理学領域に適した総合的なLLMスイートであるINDUSを開発し、多様なデータソースから得られたキュレートされた科学コーパスを用いて訓練した。 1) 自然言語理解タスクに対処するために,ドメイン固有の語彙とコーパスを用いて訓練されたエンコーダモデル,(2) 複数のソースから抽出された多様なデータセットを用いて訓練された対照的な学習ベースの汎用テキスト埋め込みモデル,(3) 待ち時間やリソース制約のあるアプリケーションに対処するために知識蒸留技術を用いて作成された,これらのモデルのより小さなバージョンである。 また、これらの分野の研究を加速するために、CLIMATE-CHANGE-NER(entity-recognition)、NASA-QA(extractive QA)、NASA-IR(IR)という3つの新しい科学的ベンチマークデータセットを作成しました。 最後に、我々のモデルは、これらの新しいタスクにおける汎用エンコーダ(RoBERTa)と既存のドメイン固有エンコーダ(SciBERT)、および関心領域における既存のベンチマークタスクよりも優れていることを示す。

Large language models (LLMs) trained on general domain corpora showed remarkable results on natural language processing (NLP) tasks. However, previous research demonstrated LLMs trained using domain-focused corpora perform better on specialized tasks. Inspired by this pivotal insight, we developed INDUS, a comprehensive suite of LLMs tailored for the Earth science, biology, physics, heliophysics, planetary sciences and astrophysics domains and trained using curated scientific corpora drawn from diverse data sources. The suite of models include: (1) an encoder model trained using domain-specific vocabulary and corpora to address natural language understanding tasks, (2) a contrastive-learning-based general text embedding model trained using a diverse set of datasets drawn from multiple sources to address information retrieval tasks and (3) smaller versions of these models created using knowledge distillation techniques to address applications which have latency or resource constraints. We also created three new scientific benchmark datasets namely, CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR (IR) to accelerate research in these multi-disciplinary fields. Finally, we show that our models outperform both general-purpose encoders (RoBERTa) and existing domain-specific encoders (SciBERT) on these new tasks as well as existing benchmark tasks in the domains of interest.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# スピン軌道結合スピン-1 ボース-アインシュタイン凝縮体の高速輸送と分裂

Fast transport and splitting of spin-orbit-coupled spin-1 Bose-Einstein Condensates ( http://arxiv.org/abs/2405.10727v1 )

ライセンス: Link先を確認
Yaning Xu, Yuanyuan Chen, Xi Chen, (参考訳) 本研究では,高調波トラップ内に閉じ込められたスピン軌道結合型スピン-1 ボース-アインシュタイン凝縮体の動的特性について検討し,高速輸送,スピン操作,スプリッティングダイナミクスに着目した。 短絡による断熱処理により、時間依存トラップ軌道とスピン軌道結合強度を設計し、スピンフリップを同時に行う高速輸送を容易にする。 さらに,スピン軌道結合強度の工学的手法によるスピン依存コヒーレント状態の生成を示す。 我々の理解を深めるために、非断熱輸送と関連するスピンダイナミクスを解明し、一定のスピン軌道結合とトラップ速度を特徴とする単純なシナリオと対比した。 さらに、Gross-Pitaevskii方程式を用いて原子間相互作用によって誘導される横ゼーマンポテンシャルと非線形効果について論じ、寒冷原子を用いた最先端実験のための提案プロトコルの安定性と実現可能性を強調した。

In this study, we investigate the dynamics of tunable spin-orbit-coupled spin-1 Bose-Einstein condensates confined within a harmonic trap, focusing on rapid transport, spin manipulation, and splitting dynamics. Using shortcuts to adiabaticity, we design time-dependent trap trajectories and spin-orbit-coupling strength to facilitate fast transport with simultaneous spin flip. Additionally, we showcase the creation of spin-dependent coherent states via engineering the spin-orbit-coupling strength. To deepen our understanding, we elucidate non-adiabatic transport and associated spin dynamics, contrasting them with simple scenarios characterized by constant spin-orbit coupling and trap velocity. Furthermore, we discuss the transverse Zeeman potential and nonlinear effect induced by interatomic interactions using the Gross-Pitaevskii equation, highlighting the stability and feasibility of the proposed protocols for the state-of-the-art experiments with cold atoms.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# 難解なAIは計算処理を必要とする

Contestable AI needs Computational Argumentation ( http://arxiv.org/abs/2405.10729v1 )

ライセンス: Link先を確認
Francesco Leofante, Hamed Ayoobi, Adam Dejl, Gabriel Freedman, Deniz Gorur, Junqi Jiang, Guilherme Paulino-Passos, Antonio Rago, Anna Rapberger, Fabrizio Russo, Xiang Yin, Dekai Zhang, Francesca Toni, (参考訳) 近年、AIは広く普及しているが、最先端のアプローチはAIシステムが競合する必要性をほとんど無視している。 代わりに、競争性はAIガイドライン(OECDなど)と自動意思決定の規制(GDPRなど)によって主張される。 本稿では,AIにおいて,競争性をどのように計算的に達成できるかを考察する。 我々は、競争可能なAIには動的(人間機械および/または機械機械)の説明可能性と意思決定のプロセスが必要であり、機械が可能であると論じている。 一 人その他の機械と相互作用して、その出力及び/又は推論を段階的に説明し、また、これらの人間又は/又は他の機械が提供する競争の根拠を評価すること。 (二)争議中に提起された問題に対処するため、意思決定のプロセスを見直しる。 現在のAIのランドスケープが静的AIに合わせたものであることを考えると、競争性に適合する必要性には、急進的な再考が必要であり、計算の議論はサポートするのに理想的だ、と私たちは主張する。

AI has become pervasive in recent years, but state-of-the-art approaches predominantly neglect the need for AI systems to be contestable. Instead, contestability is advocated by AI guidelines (e.g. by the OECD) and regulation of automated decision-making (e.g. GDPR). In this position paper we explore how contestability can be achieved computationally in and for AI. We argue that contestable AI requires dynamic (human-machine and/or machine-machine) explainability and decision-making processes, whereby machines can (i) interact with humans and/or other machines to progressively explain their outputs and/or their reasoning as well as assess grounds for contestation provided by these humans and/or other machines, and (ii) revise their decision-making processes to redress any issues successfully raised during contestation. Given that much of the current AI landscape is tailored to static AIs, the need to accommodate contestability will require a radical rethinking, that, we argue, computational argumentation is ideally suited to support.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# StackOverflowVQA: Stack Overflow Visual Question Answering Dataset

StackOverflowVQA: Stack Overflow Visual Question Answering Dataset ( http://arxiv.org/abs/2405.10736v1 )

ライセンス: Link先を確認
Motahhare Mirzaei, Mohammad Javad Pirhadi, Sauleh Eetemadi, (参考訳) 近年、人々はさまざまなトピックについて質問することで、AIを使って問題解決を支援している。 これらのトピックの1つは、ソフトウェア関連の問題とプログラミングに関する質問である。 本研究では,質問そのものに加えて,画像の理解が必要な質問に焦点をあてる。 StackOverflowVQAデータセットには、1つ以上の付随するイメージを持つStackOverflowからの質問が含まれている。 これは、ソフトウェア関連の質問に焦点を絞った最初のVQAデータセットであり、複数の人間が生成した全文回答を含んでいる。 さらに、GITモデルを用いて、導入されたデータセットのイメージに関する質問に答えるためのベースラインを提供する。 データセットのすべてのバージョンはhttps://huggingface.co/mirzaei2114で公開されている。

In recent years, people have increasingly used AI to help them with their problems by asking questions on different topics. One of these topics can be software-related and programming questions. In this work, we focus on the questions which need the understanding of images in addition to the question itself. We introduce the StackOverflowVQA dataset, which includes questions from StackOverflow that have one or more accompanying images. This is the first VQA dataset that focuses on software-related questions and contains multiple human-generated full-sentence answers. Additionally, we provide a baseline for answering the questions with respect to images in the introduced dataset using the GIT model. All versions of the dataset are available at https://huggingface.co/mirzaei2114.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# 特徴適応型・データスケーラブルなインコンテキスト学習

Feature-Adaptive and Data-Scalable In-Context Learning ( http://arxiv.org/abs/2405.10738v1 )

ライセンス: Link先を確認
Jiahao Li, Quan Wang, Licheng Zhang, Guoqing Jin, Zhendong Mao, (参考訳) いくつかのデモンストレーションで推論を促進するインコンテキスト学習(ICL)は、下流タスクのLLM能力を刺激する広範なパラダイムとなっている。 文脈長制約のため、より多くのトレーニングデータにもかかわらず、さらに改善することはできず、ICLのLLMから直接の一般的な機能は、特定の下流タスクに適応しない。 本稿では,タスク適応型機能を活用して下流タスクの推論を促進する,機能適応型データスケーリング型インコンテキスト学習フレームワーク(FADS-ICL)を提案する。 具体的には、まずILC入力形式を1つずつ導入し、特定の下流タスクに適合した後に特徴改善と予測を行うタスク固有変調器を導入する。 FADS-ICLの様々なデータ設定 (4$\sim$128 ショット) と LLM スケール (0.8$\sim$70B) で広範な実験を行う。 実験結果から, FADS-ICLは, 従来の最先端手法よりも, 全設定で有意差を保ち, FADS-ICLの有効性と優位性を検証した。 例えば、1.5Bと32ショット設定の下では、FADS-ICLは10データセット上のバニラICLに対する特徴適応から、以前の最先端法よりも平均精度で、さらにトレーニングデータを増やして、パフォーマンスを向上させることができる。 コードとデータは \url{https://github.com/jiahaozhenbang/FADS-ICL} で公開されている。

In-context learning (ICL), which promotes inference with several demonstrations, has become a widespread paradigm to stimulate LLM capabilities for downstream tasks. Due to context length constraints, it cannot be further improved in spite of more training data, and general features directly from LLMs in ICL are not adaptive to the specific downstream task. In this paper, we propose a feature-adaptive and data-scalable in-context learning framework (FADS-ICL), which can leverage task-adaptive features to promote inference on the downstream task, with the supervision of beyond-context samples. Specifically, it first extracts general features of beyond-context samples via the LLM with ICL input form one by one, and introduces a task-specific modulator to perform feature refinement and prediction after fitting a specific downstream task. We conduct extensive experiments on FADS-ICL under varying data settings (4$\sim$128 shots) and LLM scale (0.8$\sim$70B) settings. Experimental results show that FADS-ICL consistently outperforms previous state-of-the-art methods by a significant margin under all settings, verifying the effectiveness and superiority of FADS-ICL. For example, under the 1.5B and 32 shots setting, FADS-ICL can achieve \textbf{+14.3} average accuracy from feature adaptation over vanilla ICL on 10 datasets, with \textbf{+6.2} average accuracy over the previous state-of-the-art method, and the performance can further improve with increasing training data. Code and data are publicly available at \url{https://github.com/jiahaozhenbang/FADS-ICL}.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# 効率的なマルチモーダル大言語モデル:サーベイ

Efficient Multimodal Large Language Models: A Survey ( http://arxiv.org/abs/2405.10739v1 )

ライセンス: Link先を確認
Yizhang Jin, Jian Li, Yexin Liu, Tianjun Gu, Kai Wu, Zhengkai Jiang, Muyang He, Bo Zhao, Xin Tan, Zhenye Gan, Yabiao Wang, Chengjie Wang, Lizhuang Ma, (参考訳) 近年,視覚的質問応答や視覚的理解,推論といったタスクにおいて,MLLM(Multimodal Large Language Models)が顕著な性能を示した。 しかし、モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。 したがって、効率的で軽量なMLLMの研究は、特にエッジコンピューティングのシナリオにおいて大きな可能性を秘めている。 本稿では,効率的なMLLMの現状を包括的かつ体系的に概観する。 具体的には、代表的効率的なMLLMのタイムライン、効率的な構造と戦略の研究状況、および応用について要約する。 最後に、現在の効率的なMLLM研究の限界と将来的な方向性について論じる。 GitHubリポジトリの詳細については、https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey.comを参照してください。

In the past year, Multimodal Large Language Models (MLLMs) have demonstrated remarkable performance in tasks such as visual question answering, visual understanding and reasoning. However, the extensive model size and high training and inference costs have hindered the widespread application of MLLMs in academia and industry. Thus, studying efficient and lightweight MLLMs has enormous potential, especially in edge computing scenarios. In this survey, we provide a comprehensive and systematic review of the current state of efficient MLLMs. Specifically, we summarize the timeline of representative efficient MLLMs, research state of efficient structures and strategies, and the applications. Finally, we discuss the limitations of current efficient MLLM research and promising future directions. Please refer to our GitHub repository for more details: https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey.
翻訳日:2024-05-20 16:13:13 公開日:2024-05-17
# SBAAM! 自動置換における転写依存の除去

SBAAM! Eliminating Transcript Dependency in Automatic Subtitling ( http://arxiv.org/abs/2405.10741v1 )

ライセンス: Link先を確認
Marco Gaido, Sara Papi, Matteo Negri, Mauro Cettolo, Luisa Bentivogli, (参考訳) サブティチングは、音声視覚コンテンツのアクセシビリティを高める上で重要な役割を担い、音声対話の翻訳、簡潔なテキスト単位へのセグメンテーション、画面上の時間を管理するタイムスタンプの推定の3つの主要なサブタスクを包含する。 このプロセスを自動化しようとする過去の試みは、3つのサブタスクに対して多種多様で、様々な程度に自動書き起こしに頼っていた。 この転写に依存しているという認識の限界に応えて、最近の研究は、翻訳とセグメンテーションのための転写のない解へと移行し、タイムスタンプの直接発生は、未知の領域として残されている。 このギャップを埋めるために、自動字幕を生成することができる最初の直接モデルを導入し、タイムスタンプ予測にも中間文字への依存を完全に排除した。 手動による評価に裏付けられた実験結果は、複数の言語対と多様な条件にまたがって、我々のソリューションの新たな最先端性能を示すものである。

Subtitling plays a crucial role in enhancing the accessibility of audiovisual content and encompasses three primary subtasks: translating spoken dialogue, segmenting translations into concise textual units, and estimating timestamps that govern their on-screen duration. Past attempts to automate this process rely, to varying degrees, on automatic transcripts, employed diversely for the three subtasks. In response to the acknowledged limitations associated with this reliance on transcripts, recent research has shifted towards transcription-free solutions for translation and segmentation, leaving the direct generation of timestamps as uncharted territory. To fill this gap, we introduce the first direct model capable of producing automatic subtitles, entirely eliminating any dependence on intermediate transcripts also for timestamp prediction. Experimental results, backed by manual evaluation, showcase our solution's new state-of-the-art performance across multiple language pairs and diverse conditions.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# 小規模知識グラフの活用: エンリッチな埋め込みのための汎用知識グラフの活用戦略

Empowering Small-Scale Knowledge Graphs: A Strategy of Leveraging General-Purpose Knowledge Graphs for Enriched Embeddings ( http://arxiv.org/abs/2405.10745v1 )

ライセンス: Link先を確認
Albert Sawczyn, Jakub Binkowski, Piotr Bielak, Tomasz Kajdanowicz, (参考訳) 知識集約型タスクは機械学習(ML)技術にとって大きな課題となる。 LLM(Large Language Models)のような一般的な手法は、そのようなタスクに適用した場合に制限を示すことが多い。 しかしながら、これらの課題を緩和するための顕著な取り組みがあり、知識グラフ(KG)によるLLMの拡張に重点を置いている。 KGは知識を表現する上で多くの利点を提供するが、その開発コストは広範な研究や応用を妨げる可能性がある。 この制限に対処するために、我々は、確立された汎用KGを用いて、小規模ドメイン固有知識グラフの埋め込みを強化するためのフレームワークを導入する。 提案手法を応用すれば,ドメイン固有のKGは,大規模な汎用KGにリンクした場合に,下流タスクのパフォーマンス向上の恩恵を受けることができる。 実験では、Hits@10測定値で最大44%の上昇が観測された。 この比較的探索されていない研究の方向性は、知識集約的なタスクにおけるKGsの頻繁な取り込みを触媒し、より堅牢で信頼性の高いMLの実装をもたらす。 キーワード:知識グラフ、知識グラフ補完、エンティティアライメント、表現学習、機械学習

Knowledge-intensive tasks pose a significant challenge for Machine Learning (ML) techniques. Commonly adopted methods, such as Large Language Models (LLMs), often exhibit limitations when applied to such tasks. Nevertheless, there have been notable endeavours to mitigate these challenges, with a significant emphasis on augmenting LLMs through Knowledge Graphs (KGs). While KGs provide many advantages for representing knowledge, their development costs can deter extensive research and applications. Addressing this limitation, we introduce a framework for enriching embeddings of small-scale domain-specific Knowledge Graphs with well-established general-purpose KGs. Adopting our method, a modest domain-specific KG can benefit from a performance boost in downstream tasks when linked to a substantial general-purpose KG. Experimental evaluations demonstrate a notable enhancement, with up to a 44% increase observed in the Hits@10 metric. This relatively unexplored research direction can catalyze more frequent incorporation of KGs in knowledge-intensive tasks, resulting in more robust, reliable ML implementations, which hallucinates less than prevalent LLM solutions. Keywords: knowledge graph, knowledge graph completion, entity alignment, representation learning, machine learning
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# 缶の因果性:ダイエットコークスが健康に与える影響

Causality in the Can: Diet Coke's Impact on Fatness ( http://arxiv.org/abs/2405.10746v1 )

ライセンス: Link先を確認
Yicheng Qi, Ang Li, (参考訳) ダイエットコーラのような人工甘味料は、しばしば健康的な代替品とみなされるが、肥満への影響に関する議論は続いている。 これまでの研究は観察データやランダム化対照試験(RCT)に大きく依存しており、ダイエットコークスの摂取量と肥満との関係を正確に把握していない可能性がある。 本研究は,NHANES(National Health and Nutrition Examination Survey)のデータを用いた因果推論手法を用いて,多様な人口層でこの関係を検証した。 RCTデータに頼る代わりに、因果グラフを構築し、その調整式でバックドア基準を適用し、RCT分布を推定した。 次に,NHANESデータと推定RTTデータの両方を用いて,PNS(Probability of Necessity and Sufficiency)を計算した。 PNSはダイエットコークスが肥満に与える影響を評価するための重要な指標である。 以上の結果から,食事習慣の悪い人の20%から50%はダイエットコークスの体重が増加する傾向が示唆された。 逆に、健康な食事を持つ若い女性のようなグループでは、ダイエットコークスによる体重増加はわずかである。 これらの知見は,ダイエットコークの食生活が健康に及ぼす影響を解明するための新たな枠組みとして,個人の生活習慣と潜在的ホルモン要因の影響を浮き彫りにした。

Artificially sweetened beverages like Diet Coke are often considered healthier alternatives, but the debate over their impact on obesity persists. Previous research has predominantly relied on observational data or randomized controlled trials (RCTs), which may not accurately capture the causal relationship between Diet Coke consumption and obesity. This study uses causal inference methods, employing data from the National Health and Nutrition Examination Survey (NHANES) to examine this relationship across diverse demographics. Instead of relying on RCT data, we constructed a causal graph and applied the back-door criterion with its adjustment formula to estimate the RCT distributions. We then calculated the counterfactual quantity, the Probability of Necessity and Sufficiency (PNS), using both NHANES data and estimated RCT data. We propose that PNS is the essential metric for assessing the impact of Diet Coke on obesity. Our results indicate that between 20% to 50% of individuals, especially those with poor dietary habits, are more likely to gain weight from Diet Coke. Conversely, in groups like young females with healthier diets, only a small proportion experience weight gain due to Diet Coke. These findings highlight the influence of individual lifestyle and potential hormonal factors on the varied effects of Diet Coke, providing a new framework for understanding its nutritional impacts on health.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# 深部データ一貫性:逆問題に対する高速かつロバストな拡散モデルに基づく解法

Deep Data Consistency: a Fast and Robust Diffusion Model-based Solver for Inverse Problems ( http://arxiv.org/abs/2405.10748v1 )

ライセンス: Link先を確認
Hanyu Chen, Zhixiu Hao, Liying Xiao, (参考訳) 拡散モデルは, 様々な画像逆問題に対して, 先行して強力な拡散を与える手法として成功している。 多くの研究は、スコア関数の置換、行列分解、最適化アルゴリズムによる拡散を組み合わせようとしたが、データの一貫性と現実性のバランスをとるのは難しい。 サンプリング速度の遅いことも、その広範な応用にとって大きな障害となる。 これらの課題に対処するため,拡散モデルを用いて逆問題を解決する際に,深層学習モデルを用いてデータ一貫性のステップを更新するディープデータ一貫性(DDC)を提案する。 既存手法を解析することにより, 条件付き後部を最大化し, 拡散過程への影響を低減するために, 変動境界トレーニング目標を用いる。 線形および非線形タスクにおける最先端の手法と比較して、DDCは、平均0.77秒で5段階の推論ステップしか持たない高品質なソリューションを生成する際に、類似度と現実性の両方の指標の卓越した性能を示す。 さらに、DDCのロバスト性はデータセット間の実験でよく説明されており、大きなノイズと1つの事前訓練されたモデルで複数のタスクを解く能力がある。

Diffusion models have become a successful approach for solving various image inverse problems by providing a powerful diffusion prior. Many studies tried to combine the measurement into diffusion by score function replacement, matrix decomposition, or optimization algorithms, but it is hard to balance the data consistency and realness. The slow sampling speed is also a main obstacle to its wide application. To address the challenges, we propose Deep Data Consistency (DDC) to update the data consistency step with a deep learning model when solving inverse problems with diffusion models. By analyzing existing methods, the variational bound training objective is used to maximize the conditional posterior and reduce its impact on the diffusion process. In comparison with state-of-the-art methods in linear and non-linear tasks, DDC demonstrates its outstanding performance of both similarity and realness metrics in generating high-quality solutions with only 5 inference steps in 0.77 seconds on average. In addition, the robustness of DDC is well illustrated in the experiments across datasets, with large noise and the capacity to solve multiple tasks in only one pre-trained model.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# ベイズ最適化を用いたリチウムイオン電池の電気化学モデルのパラメータ同定

Parameter Identification for Electrochemical Models of Lithium-Ion Batteries Using Bayesian Optimization ( http://arxiv.org/abs/2405.10750v1 )

ライセンス: Link先を確認
Jianzong Pi, Samuel Filgueira da Silva, Mehmet Fatih Ozkan, Abhishek Gupta, Marcello Canova, (参考訳) 電気化学モデルの効率的なパラメータ同定は、リチウムイオンセルの正確なモニタリングと制御に不可欠である。 このプロセスは、出力応答に影響を与えるかなりの数の相互依存パラメータに依存する複雑なモデルに適用すると困難になる。 グラディエントベースでメタヒューリスティックな最適化手法は、以前はこのタスクに用いられていたが、ロバスト性、高い計算コスト、局所ミニマへの感受性の欠如により制限されている。 本研究では,ニッケル-マンガン-コバルト (NMC)-グラファイトセルの電気化学等価回路電池モデル (E-ECM) の動的パラメータの調整にベイズ最適化を用いる。 ベイズ最適化の性能は、勾配ベースおよびメタヒューリスティックアプローチに基づくベースライン手法と比較される。 パラメータ最適化手法のロバスト性は,実験駆動サイクルを用いた検証によって検証される。 その結果、ベイジアン最適化はグラディエントDescent と PSO の最適化技術より優れており、それぞれ平均テスト損失を28.8%、PSOは5.8%削減した。 さらに、ベイジアン最適化はテスト損失のばらつきをそれぞれ95.8%と72.7%に減少させる。

Efficient parameter identification of electrochemical models is crucial for accurate monitoring and control of lithium-ion cells. This process becomes challenging when applied to complex models that rely on a considerable number of interdependent parameters that affect the output response. Gradient-based and metaheuristic optimization techniques, although previously employed for this task, are limited by their lack of robustness, high computational costs, and susceptibility to local minima. In this study, Bayesian Optimization is used for tuning the dynamic parameters of an electrochemical equivalent circuit battery model (E-ECM) for a nickel-manganese-cobalt (NMC)-graphite cell. The performance of the Bayesian Optimization is compared with baseline methods based on gradient-based and metaheuristic approaches. The robustness of the parameter optimization method is tested by performing verification using an experimental drive cycle. The results indicate that Bayesian Optimization outperforms Gradient Descent and PSO optimization techniques, achieving reductions on average testing loss by 28.8% and 5.8%, respectively. Moreover, Bayesian optimization significantly reduces the variance in testing loss by 95.8% and 72.7%, respectively.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# ミラードライザーを用いた安定位相検索

Stable Phase Retrieval with Mirror Descent ( http://arxiv.org/abs/2405.10754v1 )

ライセンス: Link先を確認
Jean-Jacques Godeme, Jalal Fadili, Claude Amra, Myriam Zerrad, (参考訳) 本稿では,n次元実ベクトルを付加雑音により劣化したm相の無位相測定から再構成することを目的とする。 ミラー降下(またはブレグマン勾配降下)に基づく[15]で開発されたノイズレスフレームワークを拡張し,ノイズ測定に対処し,その手順が(十分小さい)加法雑音に安定であることを証明する。 決定論的な場合、ミラー降下は位相探索問題の臨界点に収束し、アルゴリズムが十分に初期化され、ノイズが十分小さい場合には、臨界点が真のベクトルに近い大域的な符号変化を示す。 測定値がd Gaussianであり、信号-雑音比が十分大きいとき、我々は、高い確率でミラー降下が真のベクトル(大域的な符号変化まで)の近くの大域的な最小値に収束することを保証する大域収束保証を提供する。 スペクトル法を用いてよい初期推定を行う場合、サンプルの複雑性境界を改善することができる。 本稿では, 位相探索問題の解法として, ミラー降下が計算的かつ統計的に効率的であることを示す数値計算結果を用いて理論的研究を補完する。

In this paper, we aim to reconstruct an n-dimensional real vector from m phaseless measurements corrupted by an additive noise. We extend the noiseless framework developed in [15], based on mirror descent (or Bregman gradient descent), to deal with noisy measurements and prove that the procedure is stable to (small enough) additive noise. In the deterministic case, we show that mirror descent converges to a critical point of the phase retrieval problem, and if the algorithm is well initialized and the noise is small enough, the critical point is near the true vector up to a global sign change. When the measurements are i.i.d Gaussian and the signal-to-noise ratio is large enough, we provide global convergence guarantees that ensure that with high probability, mirror descent converges to a global minimizer near the true vector (up to a global sign change), as soon as the number of measurements m is large enough. The sample complexity bound can be improved if a spectral method is used to provide a good initial guess. We complement our theoretical study with several numerical results showing that mirror descent is both a computationally and statistically efficient scheme to solve the phase retrieval problem.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# グラフバックドア攻撃を再考する: 分散保存の観点から

Rethinking Graph Backdoor Attacks: A Distribution-Preserving Perspective ( http://arxiv.org/abs/2405.10757v1 )

ライセンス: Link先を確認
Zhiwei Zhang, Minhua Lin, Enyan Dai, Suhang Wang, (参考訳) グラフニューラルネットワーク(GNN)は、様々なタスクにおいて顕著なパフォーマンスを示している。 しかし、最近の研究によると、GNNはバックドア攻撃に弱い。 一般的に、バックドア攻撃は、トレーニンググラフ内の一連のノードにバックドアトリガとターゲットクラスラベルをアタッチすることで、グラフを毒する。 有毒グラフでトレーニングされたGNNは、ターゲットクラスにトリガが付いたテストノードを予測するために誤解される。 その効果にもかかわらず、我々の経験的分析は、既存の方法によって生成されるトリガーは、クリーンデータと大きく異なる分布外(OOD)である傾向があることを示している。 したがって、これらのインジェクショントリガーは、現実世界のアプリケーションで広く使われている外れ値検出法で容易に検出および切断することができる。 そこで本稿では,IDトリガによる無意味なグラフバックドア攻撃の新たな問題について検討する。 我々は,IDトリガを生成するために,OOD検出器を逆学習戦略と組み合わせて導入し,分散中のトリガの属性を生成する。 IDトリガによる高い攻撃成功率を確保するため,有毒グラフで訓練した被害者モデルによるトリガ記憶の促進を目的とした新しいモジュールを提案する。 実世界のデータセットに対する大規模な実験は、高い攻撃成功率を維持しながら、様々な防衛戦略をバイパスできる分散トリガの生成において、提案手法の有効性を実証している。

Graph Neural Networks (GNNs) have shown remarkable performance in various tasks. However, recent works reveal that GNNs are vulnerable to backdoor attacks. Generally, backdoor attack poisons the graph by attaching backdoor triggers and the target class label to a set of nodes in the training graph. A GNN trained on the poisoned graph will then be misled to predict test nodes attached with trigger to the target class. Despite their effectiveness, our empirical analysis shows that triggers generated by existing methods tend to be out-of-distribution (OOD), which significantly differ from the clean data. Hence, these injected triggers can be easily detected and pruned with widely used outlier detection methods in real-world applications. Therefore, in this paper, we study a novel problem of unnoticeable graph backdoor attacks with in-distribution (ID) triggers. To generate ID triggers, we introduce an OOD detector in conjunction with an adversarial learning strategy to generate the attributes of the triggers within distribution. To ensure a high attack success rate with ID triggers, we introduce novel modules designed to enhance trigger memorization by the victim model trained on poisoned graph. Extensive experiments on real-world datasets demonstrate the effectiveness of the proposed method in generating in distribution triggers that can by-pass various defense strategies while maintaining a high attack success rate.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# ソーシャルメディアの共有カードを狙う実践的なフィッシング攻撃

Seeing is (Not) Believing: Practical Phishing Attacks Targeting Social Media Sharing Cards ( http://arxiv.org/abs/2405.10758v1 )

ライセンス: Link先を確認
Wangchenlu Huang, Shenao Wang, Yanjie Zhao, Guosheng Xu, Haoyu Wang, (参考訳) デジタル時代には、オンラインソーシャルネットワーク(OSN)が情報発信において重要な役割を担い、リンクプレビューのための共有カードが鍵となる。 これらのカードは、タイトル、説明、画像を含む共有コンテンツのスナップショットを提供する。 本研究では,共有SDKとHTMLメタタグに基づく2つのサーバサイド生成手法に着目し,これらのカードの構成と普及機構について検討する。 我々の調査は、新しいタイプの攻撃、すなわち、悪意のあるリンクのための偽の良性共有カードを作成するために悪用できる共有カード偽造(Sharing Card Forgery、SCF)攻撃を明らかにしている。 実践的な実装を通じて,これらの攻撃の有効性を実証し,その効果を13のオンラインソーシャルネットワークで評価する。 偽造カードは,ソーシャルプラットフォーム上での検知や継続を回避し,ユーザセキュリティに重大な脅威をもたらすため,重大なリスクが示唆された。 また、これらの攻撃を効果的に軽減する上での課題についても検討する。 この研究は、新しいフィッシング技術に光を当てるだけでなく、OSNエコシステムにおける高い認識と防御戦略の改善も求めている。

In the digital era, Online Social Networks (OSNs) play a crucial role in information dissemination, with sharing cards for link previews emerging as a key feature. These cards offer snapshots of shared content, including titles, descriptions, and images. In this study, we investigate the construction and dissemination mechanisms of these cards, focusing on two primary server-side generation methods based on Share-SDK and HTML meta tags. Our investigation reveals a novel type of attack, i.e., Sharing Card Forgery (SCF) attack that can be exploited to create forged benign sharing cards for malicious links. We demonstrate the feasibility of these attacks through practical implementations and evaluate their effectiveness across 13 various online social networks. Our findings indicate a significant risk, as the deceptive cards can evade detection and persist on social platforms, thus posing a substantial threat to user security. We also delve into countermeasures and discuss the challenges in effectively mitigating these types of attacks. This study not only sheds light on a novel phishing technique but also calls for heightened awareness and improved defensive strategies in the OSN ecosystem.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# ニューラルネットワークを用いた商業銀行の信用リスク早期警戒モデルに関する研究

Research on Credit Risk Early Warning Model of Commercial Banks Based on Neural Network Algorithm ( http://arxiv.org/abs/2405.10762v1 )

ライセンス: Link先を確認
Yu Cheng, Qin Yang, Liyang Wang, Ao Xiang, Jingyu Zhang, (参考訳) グローバル化した金融市場の世界では、商業銀行は信用リスクの増大に直面するため、銀行資産の安全と金融安定に対する要求が高まっている。 この研究は、特にバックプロパゲーション(BP)ニューラルネットワークのような高度なニューラルネットワーク技術を利用して、商業銀行の信用リスクをプリエンプションする新しいモデルを開発した。 この談話は最初、ARMA、ARCH、ロジスティック回帰モデルといった従来の金融リスクプリエンプティブモデルを精査し、現実の応用を批判的に分析した。 その後、BPニューラルネットワークモデルの構築プロセスについて詳述し、ネットワークアーキテクチャ設計、アクティベーション関数の選択、パラメータの初期化、目的関数構築を含む。 比較分析により、商業銀行の信用リスクを前提としたニューラルネットワークモデルの優位性が解明される。 実験セグメントは特定の銀行データを選択し、モデルの予測精度と実用性を検証する。 研究は、このモデルが信用リスク管理の予測と精度を効果的に向上させることを示唆している。

In the realm of globalized financial markets, commercial banks are confronted with an escalating magnitude of credit risk, thereby imposing heightened requisites upon the security of bank assets and financial stability. This study harnesses advanced neural network techniques, notably the Backpropagation (BP) neural network, to pioneer a novel model for preempting credit risk in commercial banks. The discourse initially scrutinizes conventional financial risk preemptive models, such as ARMA, ARCH, and Logistic regression models, critically analyzing their real-world applications. Subsequently, the exposition elaborates on the construction process of the BP neural network model, encompassing network architecture design, activation function selection, parameter initialization, and objective function construction. Through comparative analysis, the superiority of neural network models in preempting credit risk in commercial banks is elucidated. The experimental segment selects specific bank data, validating the model's predictive accuracy and practicality. Research findings evince that this model efficaciously enhances the foresight and precision of credit risk management.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# クラウドソーシングによるNLPの相性説明の評価

Evaluating Saliency Explanations in NLP by Crowdsourcing ( http://arxiv.org/abs/2405.10767v1 )

ライセンス: Link先を確認
Xiaotian Lu, Jiyi Li, Zhen Wan, Xiaofeng Lin, Koh Takeuchi, Hisashi Kashima, (参考訳) ディープラーニングモデルは、多くのNLPタスクでうまく機能している。 しかし、その内部メカニズムは一般に人間が理解するのが困難である。 モデルを説明する手法の開発は、多くの重要なアプリケーションにおいてディープラーニングモデルの信頼性において重要な問題となっている。 入力のそれぞれの特徴を出力の寄与に比例したスコアを与える様々なサリエンシ説明法が提案され、モデルが最も評価する入力の一部を決定する。 評価方法の評価にかなりの努力を払っているにもかかわらず、様々な評価指標の結果が人間の認知と一致するかどうかは未解決のままである。 本研究では,クラウドソーシングによるNLPの相性評価手法を提案する。 我々は,800名のクラウドワーカーを募集し,提案手法を用いて2つのデータセット上で7つのサリエンシ手法を実証的に評価した。 本研究では,サリエンシ法の性能を解析し,既存の自動評価法と比較し,サリエンシ法を用いた場合のNLPとコンピュータビジョン(CV)フィールドの顕著な差異を明らかにした。 クラウドソースされた実験のインスタンスレベルのデータと説明を再現するコードはhttps://github.com/xtlu/lreccoling_evaluation.comで公開されています。

Deep learning models have performed well on many NLP tasks. However, their internal mechanisms are typically difficult for humans to understand. The development of methods to explain models has become a key issue in the reliability of deep learning models in many important applications. Various saliency explanation methods, which give each feature of input a score proportional to the contribution of output, have been proposed to determine the part of the input which a model values most. Despite a considerable body of work on the evaluation of saliency methods, whether the results of various evaluation metrics agree with human cognition remains an open question. In this study, we propose a new human-based method to evaluate saliency methods in NLP by crowdsourcing. We recruited 800 crowd workers and empirically evaluated seven saliency methods on two datasets with the proposed method. We analyzed the performance of saliency methods, compared our results with existing automated evaluation methods, and identified notable differences between NLP and computer vision (CV) fields when using saliency methods. The instance-level data of our crowdsourced experiments and the code to reproduce the explanations are available at https://github.com/xtlu/lreccoling_evaluation.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# POMDPの最適報酬は何か?

What should be observed for optimal reward in POMDPs? ( http://arxiv.org/abs/2405.10768v1 )

ライセンス: Link先を確認
Alyzia-Maria Konsta, Alberto Lluch Lafuente, Christoph Matheja, (参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実な環境で決定を行うエージェントの標準モデルである。 POMDPに関するほとんどの研究は、利用可能な能力に基づいて戦略を合成することに焦点を当てている。 しかしシステムデザイナは、例えばセンサーを設置したり、選択したりすることで、エージェントの観測能力を制御できることが多い。 これにより、目的を達成するために、どのようにエージェントのセンサーを費用対効果で選択すべきかという疑問が持ち上がる。 本稿では,新しい最適可観測性問題OOPについて考察する: POMDP M が与えられた予算内で M の観測能力を変えて,その(最小限の)報奨が与えられた閾値以下であるようにする方法。 位置戦略のみを考慮すると、一般には決定不可能であり、決定不可能であることを示す。 まず,Mのマルコフ決定過程の最適戦略と,SMTを用いたパラメータ合成に基づく2つのアルゴリズムを提案する。 典型例の変種について,POMDP文献から有望な結果を得た。

Partially observable Markov Decision Processes (POMDPs) are a standard model for agents making decisions in uncertain environments. Most work on POMDPs focuses on synthesizing strategies based on the available capabilities. However, system designers can often control an agent's observation capabilities, e.g. by placing or selecting sensors. This raises the question of how one should select an agent's sensors cost-effectively such that it achieves the desired goals. In this paper, we study the novel optimal observability problem OOP: Given a POMDP M, how should one change M's observation capabilities within a fixed budget such that its (minimal) expected reward remains below a given threshold? We show that the problem is undecidable in general and decidable when considering positional strategies only. We present two algorithms for a decidable fragment of the OOP: one based on optimal strategies of M's underlying Markov decision process and one based on parameter synthesis with SMT. We report promising results for variants of typical examples from the POMDP literature.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# 量子メモリ応用のための欠陥核スピンレジスタ制御の高スループット評価

High-throughput assessment of defect-nuclear spin register controllability for quantum memory applications ( http://arxiv.org/abs/2405.10778v1 )

ライセンス: Link先を確認
Filippos Dakis, Evangelia Takou, Edwin Barnes, Sophia E. Economou, (参考訳) 量子メモリは、セキュアな通信、高度な量子センシング、分散量子コンピューティングを含む量子ネットワークや量子情報処理におけるタスクの促進に重要な役割を果たしている。 欠陥電子スピンと結合した大きな核スピンレジスタのキャラクタリゼーションの進歩は重要であるが、メモリ量子ビットの選択には多くの課題が伴うため、依然として困難である。 絡み合うゲートの忠実度を評価するための数値シミュレーションは障害に遭遇し、研究を小さなレジスタに制限する一方、実験は時間がかかり、よく理解されたサンプルに限られる。 本稿では,核スピンレジスタに結合した欠陥システムの制御性を系統的に評価する効率的な手法を提案する。 SiCの欠陥とランダムに選択された2種の核スピン群($^{13}$Cおよび$^{29}$Si)の絡み合いリンクの生成について検討した。 エンタングリングゲート動作の性能を定量化し、レジスタのサイズと不要核スピンの存在を考慮し、達成可能なゲート忠実度を示す。 標的核数と浴槽核数によっては,一部の制御シーケンスが他より優れていることが判明した。 この効率的なアプローチは、実験と工学の両方のためのガイドであり、量子メモリに適した欠陥システムの高速な探索を容易にする。

Quantum memories play a key role in facilitating tasks within quantum networks and quantum information processing, including secure communications, advanced quantum sensing, and distributed quantum computing. Progress in characterizing large nuclear spin registers coupled to defect electronic spins has been significant, but selecting memory qubits remains challenging due to the multitude of possible assignments. Numerical simulations for evaluating entangling gate fidelities encounter obstacles, restricting research to small registers, while experimental investigations are time-consuming and often limited to well-understood samples. Here we present an efficient methodology for systematically assessing the controllability of defect systems coupled to nuclear spin registers. We showcase the approach by investigating the generation of entanglement links between defects in SiC and randomly selected sets of nuclear spins within the two-species ($^{13}$C and $^{29}$Si) nuclear register. We quantify the performance of entangling gate operations and present the achievable gate fidelities, considering both the size of the register and the presence of unwanted nuclear spins. We find that some control sequences perform better than others depending on the number of target versus bath nuclei. This efficient approach is a guide for both experimental investigation and engineering, facilitating the high-throughput exploration of suitable defect systems for quantum memories.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# 非線形システム同定ベンチマークのベースライン結果

Baseline Results for Selected Nonlinear System Identification Benchmarks ( http://arxiv.org/abs/2405.10779v1 )

ライセンス: Link先を確認
Max D. Champneys, Gerben I. Beintema, Roland Tóth, Maarten Schoukens, Maarten Schoukens, Timothy J. Rogers, (参考訳) 非線形システム同定は、研究や学界で重要な課題である。 毎年、多数の新しいアプローチが公開され、それぞれが既存の方法の改良や拡張を提示している。 したがって、これらの競合するモデルをどのように選ぶかを考えるのは自然である。 ベンチマークデータセットは、この問題にアプローチする方法の1つを提供する。 しかし、ベンチマーク性能に基づいた有意義な推論を行うためには、新しい手法が十分に確立された手法で得られる結果と比較して、いかにうまく機能するかを理解することが重要である。 本稿では,5つのベンチマークにおいて,10種類のベースライン手法とその相対的性能について述べる。 本研究の目的は,識別手法の客観的比較に関する思考と議論を刺激することである。

Nonlinear system identification remains an important open challenge across research and academia. Large numbers of novel approaches are seen published each year, each presenting improvements or extensions to existing methods. It is natural, therefore, to consider how one might choose between these competing models. Benchmark datasets provide one clear way to approach this question. However, to make meaningful inference based on benchmark performance it is important to understand how well a new method performs comparatively to results available with well-established methods. This paper presents a set of ten baseline techniques and their relative performances on five popular benchmarks. The aim of this contribution is to stimulate thought and discussion regarding objective comparison of identification methodologies.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# 双極性結合を増強したコヒーレンススイートスポット

A coherence sweet spot with enhanced dipolar coupling ( http://arxiv.org/abs/2405.10796v1 )

ライセンス: Link先を確認
Jann H. Ungerer, Alessia Pally, Stefano Bosco, Artem Kononov, Deepankar Sarmah, Sebastian Lehmann, Claes Thelander, Ville F. Maisi, Pasquale Scarlino, Daniel Loss, Andreas Baumgartner, Christian Schönenberger, (参考訳) クビットは動作速度とコヒーレンスの間の妥協を必要とする。 ここでは、妥協のないシングルトリップレット(ST)量子ビットを示し、この量子ビットは駆動場に最大結合すると同時に、支配的なノイズ源に最小結合する。 量子ビットはInAsナノワイヤ内の結晶相定義された二重量子ドットに実装される。 超伝導共振器を用いて, スピン-軌道相互作用(SOI)ギャップ, スピン-光子結合強度, クビットデコヒーレンス速度を平面内磁場配向関数として測定する。 我々は、双極子結合を最大化し、デコヒーレンスを最大化するスピンキュービットスイーツスポットを実証した。 我々の理論的な記述は、フォノンを最も有力なノイズ源であると仮定している。 妥協のないスイートスポットは、SOIが物質プラットフォームに限定されているのではなく、SOIを持つあらゆる材料に応用されていることを示唆するSOIに由来する。 これらの発見は、次世代量子ビット技術のためのナノマテリアルの工学的発展の道を開いた。

Qubits require a compromise between operation speed and coherence. Here, we demonstrate a compromise-free singlet-triplet (ST) qubit, where the qubit couples maximally to the driving field while simultaneously coupling minimally to the dominant noise sources. The qubit is implemented in a crystal-phase defined double-quantum dot in an InAs nanowire. Using a superconducting resonator, we measure the spin-orbit interaction (SOI) gap, the spin-photon coupling strength and the qubit decoherence rate as a function of the in-plane magnetic-field orientation. We demonstrate a spin qubit sweet spot maximizing the dipolar coupling and simultaneously minimizing the decoherence. Our theoretical description postulates phonons as the most likely dominant noise source. The compromise-free sweet spot originates from the SOI suggesting that it is not restricted to this material platform, but might find applications in any material with SOI. These findings pave the way for enhanced engineering of these nanomaterials for next-generation qubit technologies.
翻訳日:2024-05-20 16:03:21 公開日:2024-05-17
# コンピュータ閾値のトレーニング:AIガバナンスの特徴と機能

Training Compute Thresholds: Features and Functions in AI Governance ( http://arxiv.org/abs/2405.10799v1 )

ライセンス: Link先を確認
Lennart Heim, (参考訳) 本稿では,人工知能(AI)システムの管理ツールとして,計算しきい値のトレーニングを利用する方法について検討する。 我々は、計算しきい値が、規制の唯一の決定要因であるのではなく、AIモデルのさらなる評価のための貴重なトリガーであると主張している。 計算しきい値の主な利点は、モデル能力とリスクとの相関、定量化可能性、測定の容易性、回避への堅牢性、モデル開発と展開前の可知性、外部検証の可能性、対象範囲などである。 計算しきい値は、潜在的にリスクの高いモデルを特定するための実践的な出発点を提供し、AIガバナンスフレームワークの初期フィルタとして、他のセクター固有の規制やより広範なガバナンス対策とともに使用できる。

This paper examines the use of training compute thresholds as a tool for governing artificial intelligence (AI) systems. We argue that compute thresholds serve as a valuable trigger for further evaluation of AI models, rather than being the sole determinant of the regulation. Key advantages of compute thresholds include their correlation with model capabilities and risks, quantifiability, ease of measurement, robustness to circumvention, knowability before model development and deployment, potential for external verification, and targeted scope. Compute thresholds provide a practical starting point for identifying potentially high-risk models and can be used as an initial filter in AI governance frameworks alongside other sector-specific regulations and broader governance measures.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# 時空間時系列予測のための不均質インフォームドメタパラメータ学習

Heterogeneity-Informed Meta-Parameter Learning for Spatiotemporal Time Series Forecasting ( http://arxiv.org/abs/2405.10800v1 )

ライセンス: Link先を確認
Zheng Dong, Renhe Jiang, Haotian Gao, Hangchen Liu, Jinliang Deng, Qingsong Wen, Xuan Song, (参考訳) 時空間時系列予測は、幅広い現実世界の応用において重要な役割を果たす。 この領域では大きな進歩があったが、時空間の不均一性を完全に把握し活用することは根本的な課題である。 そこで本研究では,不均一なメタパラメータ学習方式を提案する。 具体的には,空間的および時間的埋め込みを学習することで,空間的不均一性を暗黙的に捉え,クラスタリングのプロセスと見なすことができる。 そこで,メタパラメータプールから時空間固有のパラメータを学習するために,新しい時空間メタパラメータ学習パラダイムを提案する。 これらの考え方に基づき、時空間時系列予測のためのヘテロジニティインフォームド時空間メタネットワーク(HimNet)を開発した。 広範に使用されている5つのベンチマーク実験により,本手法は高い解釈性を示しながら,最先端の性能を実現することを示す。 私たちのコードはhttps://github.com/XDZhelheim/HimNet.comで公開されています。

Spatiotemporal time series forecasting plays a key role in a wide range of real-world applications. While significant progress has been made in this area, fully capturing and leveraging spatiotemporal heterogeneity remains a fundamental challenge. Therefore, we propose a novel Heterogeneity-Informed Meta-Parameter Learning scheme. Specifically, our approach implicitly captures spatiotemporal heterogeneity through learning spatial and temporal embeddings, which can be viewed as a clustering process. Then, a novel spatiotemporal meta-parameter learning paradigm is proposed to learn spatiotemporal-specific parameters from meta-parameter pools, which is informed by the captured heterogeneity. Based on these ideas, we develop a Heterogeneity-Informed Spatiotemporal Meta-Network (HimNet) for spatiotemporal time series forecasting. Extensive experiments on five widely-used benchmarks demonstrate our method achieves state-of-the-art performance while exhibiting superior interpretability. Our code is available at https://github.com/XDZhelheim/HimNet.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# 畳み込みニューラルネットワーク圧縮のためのストレージ直接テンソルリング分解

Reduced storage direct tensor ring decomposition for convolutional neural networks compression ( http://arxiv.org/abs/2405.10802v1 )

ライセンス: Link先を確認
Mateusz Gabor, Rafał Zdunek, (参考訳) 畳み込みニューラルネットワーク(CNN)は、画像分類などのコンピュータビジョンタスクにおいて最も広く使われている機械学習モデルの一つである。 CNNの効率を改善するために、多くのCNN圧縮手法が開発されている。 低ランク法は、元の畳み込みカーネルとより小さな畳み込みカーネルのシーケンスを近似し、ストレージと時間の複雑さを減少させる。 本研究では,記憶率の低下した直接テンソルリング分解(RSDTR)に基づく,新しい低ランクCNN圧縮手法を提案する。 提案手法は,圧縮ネットワークの分類精度を良好に保ちながら,大きなパラメータとFLOPS圧縮率を特徴とする,高い円モード置換柔軟性を提供する。 CIFAR-10とImageNetデータセットで実施された実験は、他の最先端のCNN圧縮アプローチと比較して、RSDTRの効率を明らかに示している。

Convolutional neural networks (CNNs) are among the most widely used machine learning models for computer vision tasks, such as image classification. To improve the efficiency of CNNs, many CNNs compressing approaches have been developed. Low-rank methods approximate the original convolutional kernel with a sequence of smaller convolutional kernels, which leads to reduced storage and time complexities. In this study, we propose a novel low-rank CNNs compression method that is based on reduced storage direct tensor ring decomposition (RSDTR). The proposed method offers a higher circular mode permutation flexibility, and it is characterized by large parameter and FLOPS compression rates, while preserving a good classification accuracy of the compressed network. The experiments, performed on the CIFAR-10 and ImageNet datasets, clearly demonstrate the efficiency of RSDTR in comparison to other state-of-the-art CNNs compression approaches.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# 形態的属性による白血球検出のための大規模多ドメイン白血病データセット

A Large-scale Multi Domain Leukemia Dataset for the White Blood Cells Detection with Morphological Attributes for Explainability ( http://arxiv.org/abs/2405.10803v1 )

ライセンス: Link先を確認
Abdul Rehman, Talha Meraj, Aiman Mahmood Minhas, Ayisha Imran, Mohsen Ali, Waqas Sultani, (参考訳) 白血病の早期診断は毎年数千人の命を救える。 白血病の予後は、白血球(WBC)の形態情報なしでは困難であり、高価な顕微鏡のアクセシビリティと、末梢血サンプル(PBS)の分析に血液学者が利用できることに依存している。 深層学習に基づく手法は、血液学者を支援するために用いられる。 しかし、これらのアルゴリズムは大量のラベル付きデータを必要とするため、簡単には利用できない。 この制限を克服するため、私たちは現実的で、一般化され、大きなデータセットを取得しました。 この総合的なデータセットを現実世界の応用のために収集するために、異なるセンサー(HCM用のハイエンドカメラ、CM用のミドルレベルのカメラ、両方の携帯電話カメラ)を通して3つの倍率(100倍、40倍、10倍)で撮影するために、2つの異なるコストスペクトル(高コストのHCMと低コストのLCM)から2つの顕微鏡が使用される。 高感度カメラは中級カメラの47倍高く、HCMはLCMの17倍高い。 このコレクションでは、HCMを高分解能(100倍)で使用し、いくつかのPBS白血病患者の2.4k画像から55kの形態ラベル(セルサイズ、核クロマチン、核形状など)を持つ10.3kのWBCタイプ(14)とアーティファクトを注釈付けした。 その後、これらのアノテーションはHCMの他の2倍、LCMの3倍、各カメラが撮影した画像に転送される。 LeukemiaAttriデータセットとともに、形態情報に基づく属性予測とともに、複数のオブジェクト検出器とUnsupervised Domain Adaptation (UDA)戦略のベースラインを提供します。 データセットは公開後に公開され、この方向の研究を促進する。

Earlier diagnosis of Leukemia can save thousands of lives annually. The prognosis of leukemia is challenging without the morphological information of White Blood Cells (WBC) and relies on the accessibility of expensive microscopes and the availability of hematologists to analyze Peripheral Blood Samples (PBS). Deep Learning based methods can be employed to assist hematologists. However, these algorithms require a large amount of labeled data, which is not readily available. To overcome this limitation, we have acquired a realistic, generalized, and large dataset. To collect this comprehensive dataset for real-world applications, two microscopes from two different cost spectrums (high-cost HCM and low-cost LCM) are used for dataset capturing at three magnifications (100x, 40x, 10x) through different sensors (high-end camera for HCM, middle-level camera for LCM and mobile-phone camera for both). The high-sensor camera is 47 times more expensive than the middle-level camera and HCM is 17 times more expensive than LCM. In this collection, using HCM at high resolution (100x), experienced hematologists annotated 10.3k WBC types (14) and artifacts, having 55k morphological labels (Cell Size, Nuclear Chromatin, Nuclear Shape, etc.) from 2.4k images of several PBS leukemia patients. Later on, these annotations are transferred to other 2 magnifications of HCM, and 3 magnifications of LCM, and on each camera captured images. Along with the LeukemiaAttri dataset, we provide baselines over multiple object detectors and Unsupervised Domain Adaptation (UDA) strategies, along with morphological information-based attribute prediction. The dataset will be publicly available after publication to facilitate the research in this direction.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# ほぼゼロ平均偏光変化を持つ波面回転子

A wavefront rotator with near-zero mean polarization change ( http://arxiv.org/abs/2405.10804v1 )

ライセンス: Link先を確認
Suman Karan, Nilakshi Senapati, Anand K. Jha, (参考訳) Kミラー(K-mirror)は、入射光場の波面を回転させる装置である。 Kミラーは内部の反射を調整するためのいくつかの制御を持つが、ドーブプリズムは追加の制御を持たない単一のガラス要素でできているという事実から、他の一般的な波面回転子であるドーブプリズムに対して最近注目されている。 したがって、Kミラーを用いた送信波面の角偏差は、ドーブプリズムよりもはるかに低い。 しかし, 市販Kミラーにおいても回転に伴う透過界の偏光変化は持続する。 最近の理論的研究(応用光学、61, 8302 (2022))は、Kミラーの基底角を、付随する偏光の変化が最小となるように、所定の屈折率に対して最適化することが可能であることを示している。 これとは対照的に, 屈折率を最適化することにより, Kミラーを任意の基底角度で設計し, ほぼゼロ値を含む平均偏光変化に対して任意の値で設計することができることを示す。 さらに, 市販Kミラーよりも平均偏光度が低いKミラーを実験的に実証した。 これは、正確な波面回転制御を必要とするOAMベースのアプリケーションにとって重要な実践的意味を持つ。

A K-mirror is a device that rotates the wavefront of an incident optical field. It has recently gained prominence over Dove prism, another commonly used wavefront rotator, due to the fact that while a K-mirror has several controls for adjusting the internal reflections, a Dove prism is made of a single glass element with no additional control. Thus, one can obtain much lower angular deviations of transmitting wavefronts using a K-mirror than with a Dove prism. However, the accompanying polarization changes in the transmitted field due to rotation persist even in the commercially available K-mirrors. A recent theoretical work [Applied Optics, 61, 8302 (2022)] shows that it is possible to optimize the base angle of a K-mirror for a given refractive index such that the accompanying polarization changes are minimum. In contrast, we show in this article that by optimizing the refractive index it is possible to design a K-mirror at any given base angle and with any given value for the mean polarization change, including near-zero values. Furthermore, we experimentally demonstrate a K-mirror with an order-of-magnitude lower mean polarization change than that of the commercially available K-mirrors. This can have important practical implications for OAM-based applications that require precise wavefront rotation control.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# ActiveLLM: 大規模言語モデルに基づくテキスト・ショットシナリオのためのアクティブ・ラーニング

ActiveLLM: Large Language Model-based Active Learning for Textual Few-Shot Scenarios ( http://arxiv.org/abs/2405.10808v1 )

ライセンス: Link先を確認
Markus Bayer, Christian Reuter, (参考訳) アクティブラーニングは、最も学習を高めるインスタンスを優先順位付けすることで、アノテーションの努力を最小限に抑えるように設計されている。 しかし、多くのアクティブな学習戦略は'コールドスタート'問題に苦しむ。 この制限により、事前訓練されたモデルの実用性が低下することが多く、既に数ショットのシナリオでうまく機能している。 そこで本研究では,GPT-4,Llama 3,Mistral Largeといった大規模言語モデルを利用してインスタンスの選択を行う,新しいアクティブラーニング手法であるActiveLLMを紹介する。 そこで我々は,ActiveLLMがBERT分類器の分類性能を大幅に向上させ,従来のアクティブラーニング手法と数ショットラーニング手法であるSetFitよりも優れていることを示した。 さらにActiveLLMは、フェールショット以外のシナリオにも拡張可能で、反復的な選択が可能である。 この方法では、ActiveLLMは、他のアクティブな学習戦略がコールドスタート問題を克服するのにも役立ちます。 この結果から,ActiveLLMは様々な学習環境において,モデル性能を向上させるための有望なソリューションである可能性が示唆された。

Active learning is designed to minimize annotation efforts by prioritizing instances that most enhance learning. However, many active learning strategies struggle with a 'cold start' problem, needing substantial initial data to be effective. This limitation often reduces their utility for pre-trained models, which already perform well in few-shot scenarios. To address this, we introduce ActiveLLM, a novel active learning approach that leverages large language models such as GPT-4, Llama 3, and Mistral Large for selecting instances. We demonstrate that ActiveLLM significantly enhances the classification performance of BERT classifiers in few-shot scenarios, outperforming both traditional active learning methods and the few-shot learning method SetFit. Additionally, ActiveLLM can be extended to non-few-shot scenarios, allowing for iterative selections. In this way, ActiveLLM can even help other active learning strategies to overcome their cold start problem. Our results suggest that ActiveLLM offers a promising solution for improving model performance across various learning setups.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# 汚い衝撃音を伴うシンボル間干渉路のデータ駆動型シンボル検出

Data-Driven Symbol Detection for Intersymbol Interference Channels with Bursty Impulsive Noise ( http://arxiv.org/abs/2405.10814v1 )

ライセンス: Link先を確認
Boris Karanov, Chin-Hung Chen, Yan Wu, Alex Young, Wim van Houtum, (参考訳) 我々は,例えば無線デジタル放送や車載通信で発生するバーストインパルスノイズ(IN)の存在下で,ISIチャネルを経由した符号化伝送におけるデータ駆動トレリスに基づくソフトシンボル検出のための機械学習手法を開発した。 これにより,Bhl-Cocke-Jelinek-Raviv (BCJR) アルゴリズムを応用し,全チャネル状態情報(CSI)の計算可能性とトレリス状態遷移確率を回避した。 まず, 付加的な白色ガウス雑音 (AWGN) を有するISIチャネルに対して, ニューラルネットワーク支援BCJRの適用範囲を拡大した。 伝送シーケンスのラベル付けによる確率推定には適しているが, BCJR-NN法ではトレリス状態遷移を学習するためのフレームワークを提供していない。 In addition to detection over the joint ISI and IN states also focus on another scenario where trellis transitions are trivial: for the ISI channel with AWGN with the illcurate knowledge of the channel memory at the receiver。 正確な状態遷移行列にアクセスできなければ、BCJR-NNの性能は両方の設定で著しく低下する。 そこで我々は,隠れマルコフモデル(HMM)の教師なし学習に基づく,データ駆動型BCJR検出のための代替手法を考案した。 BCJR-HMMにより、ラベル付けなしで、可能性関数と状態遷移行列の両方を最適化できる。 さらに,HMMによる状態遷移が最適化されるのに対して,NNが可能性の学習に使用されるハイブリッドNNとHMM BCJRの検出の実現可能性を示した。 学習したトレリス状態遷移を持つデータ駆動検出器は、必要な事前チャネル知識を低減しつつ、最適な完全CSIベースBCJRに近いビット誤り率を実現し、不正確なCSIによる検出よりも大幅に優れていた。

We developed machine learning approaches for data-driven trellis-based soft symbol detection in coded transmission over intersymbol interference (ISI) channels in presence of bursty impulsive noise (IN), for example encountered in wireless digital broadcasting systems and vehicular communications. This enabled us to obtain optimized detectors based on the Bahl-Cocke-Jelinek-Raviv (BCJR) algorithm while circumventing the use of full channel state information (CSI) for computing likelihoods and trellis state transition probabilities. First, we extended the application of the neural network (NN)-aided BCJR, recently proposed for ISI channels with additive white Gaussian noise (AWGN). Although suitable for estimating likelihoods via labeling of transmission sequences, the BCJR-NN method does not provide a framework for learning the trellis state transitions. In addition to detection over the joint ISI and IN states we also focused on another scenario where trellis transitions are not trivial: detection for the ISI channel with AWGN with inaccurate knowledge of the channel memory at the receiver. Without access to the accurate state transition matrix, the BCJR- NN performance significantly degrades in both settings. To this end, we devised an alternative approach for data-driven BCJR detection based on the unsupervised learning of a hidden Markov model (HMM). The BCJR-HMM allowed us to optimize both the likelihood function and the state transition matrix without labeling. Moreover, we demonstrated the viability of a hybrid NN and HMM BCJR detection where NN is used for learning the likelihoods, while the state transitions are optimized via HMM. While reducing the required prior channel knowledge, the examined data-driven detectors with learned trellis state transitions achieve bit error rates close to the optimal full CSI-based BCJR, significantly outperforming detection with inaccurate CSI.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# 非凸非平滑条件確率最適化のための関数モデル法

A Functional Model Method for Nonconvex Nonsmooth Conditional Stochastic Optimization ( http://arxiv.org/abs/2405.10815v1 )

ライセンス: Link先を確認
Andrzej Ruszczyński, Shangzhe Yang, (参考訳) 本稿では, 基本確率ベクトルの非線形関数の期待値と, 基本確率ベクトル, 従属確率ベクトル, 決定変数に依存する他の関数の条件予測を含む確率的最適化問題を考察する。 このような問題を条件付き確率最適化問題と呼ぶ。 これらは、アップリフトモデリング、強化学習、文脈最適化など、多くのアプリケーションで発生する。 リプシッツの滑らかな外関数と一般化可能な微分可能な内関数を持つ非凸制約条件付き確率最適化問題に対して、特殊単一時間スケール確率法を提案する。 提案手法では, 内部条件予測を, 平均二乗誤差が {\displaystyle {\L}ojasiewicz 条件の確率バージョンを満たすようなリッチパラメトリックモデルで近似する。 モデルは内部学習アルゴリズムによって使用される。 提案手法の主な特徴は,提案手法が用いた方向の偏りのない確率的推定を,反復毎の関節分布から1つの観測で生成し,実時間学習に適用できる点である。 しかし、方向は全体的目的関数の勾配や下勾配ではない。 微分包含法と特別に設計されたリャプノフ関数を用いて、確率 1 の手法の収束を証明し、ブレグマン距離の確率的一般化を含む。 最後に、数値図示は、我々のアプローチの生存可能性を示すものである。

We consider stochastic optimization problems involving an expected value of a nonlinear function of a base random vector and a conditional expectation of another function depending on the base random vector, a dependent random vector, and the decision variables. We call such problems conditional stochastic optimization problems. They arise in many applications, such as uplift modeling, reinforcement learning, and contextual optimization. We propose a specialized single time-scale stochastic method for nonconvex constrained conditional stochastic optimization problems with a Lipschitz smooth outer function and a generalized differentiable inner function. In the method, we approximate the inner conditional expectation with a rich parametric model whose mean squared error satisfies a stochastic version of a {\L}ojasiewicz condition. The model is used by an inner learning algorithm. The main feature of our approach is that unbiased stochastic estimates of the directions used by the method can be generated with one observation from the joint distribution per iteration, which makes it applicable to real-time learning. The directions, however, are not gradients or subgradients of any overall objective function. We prove the convergence of the method with probability one, using the method of differential inclusions and a specially designed Lyapunov function, involving a stochastic generalization of the Bregman distance. Finally, a numerical illustration demonstrates the viability of our approach.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# レスト・リニアバンド

Restless Linear Bandits ( http://arxiv.org/abs/2405.10817v1 )

ライセンス: Link先を確認
Azadeh Khaleghi, (参考訳) 線形帯域問題のより一般的な定式化は、時間とともに依存を許容すると考えられる。 具体的には、未知の$\mathbb{R}^d$-valued stationary $\varphi$-mixing sequence of parameters $(\theta_t,~t \in \mathbb{N})$ が存在すると仮定される。 この問題の例は、イドノイズを持つ古典的線形包帯の一般化と、有限武装のレスレス包帯の一般化と見なすことができる。 レスレスバンディットに対する最適ポリシーのよく知られた計算困難さを考慮して、連続する$\theta_t$間の$\varphi$-dependenceによって誤差を制御する近似が提案される。 LinMix-UCBと呼ばれる楽観的なアルゴリズムは、$\theta_t$が指数混合率を持つ場合に提案される。 提案アルゴリズムは、常に$\mathbb{E}\theta_t$の倍数のオラクルに対して、$\mathcal{O}\left(\sqrt{d n\mathrm{polylog}(n) }\right)$のサブ線形後悔を引き起こすことを示す。 この設定の主な課題は、探査・探査戦略が長距離依存に対して堅牢であることを保証することである。 提案手法はベルビーのカップリング補題に頼り、ほぼ独立な標本を慎重に選択し、$\mathbb{E}\theta_t$の実験的推定値の周りの信頼楕円体を構築する。

A more general formulation of the linear bandit problem is considered to allow for dependencies over time. Specifically, it is assumed that there exists an unknown $\mathbb{R}^d$-valued stationary $\varphi$-mixing sequence of parameters $(\theta_t,~t \in \mathbb{N})$ which gives rise to pay-offs. This instance of the problem can be viewed as a generalization of both the classical linear bandits with iid noise, and the finite-armed restless bandits. In light of the well-known computational hardness of optimal policies for restless bandits, an approximation is proposed whose error is shown to be controlled by the $\varphi$-dependence between consecutive $\theta_t$. An optimistic algorithm, called LinMix-UCB, is proposed for the case where $\theta_t$ has an exponential mixing rate. The proposed algorithm is shown to incur a sub-linear regret of $\mathcal{O}\left(\sqrt{d n\mathrm{polylog}(n) }\right)$ with respect to an oracle that always plays a multiple of $\mathbb{E}\theta_t$. The main challenge in this setting is to ensure that the exploration-exploitation strategy is robust against long-range dependencies. The proposed method relies on Berbee's coupling lemma to carefully select near-independent samples and construct confidence ellipsoids around empirical estimates of $\mathbb{E}\theta_t$.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# 内部高次元カオス活動による生成モデリング

Generative modeling through internal high-dimensional chaotic activity ( http://arxiv.org/abs/2405.10822v1 )

ライセンス: Link先を確認
Samantha J. Fournier, Pierfrancesco Urbani, (参考訳) 生成モデリングは、トレーニングデータセットの統計特性が類似した新しいデータポイントを作成することを目的としている。 近年,この目標を達成するための機械学習技術や設定が,目覚ましいパフォーマンスで急増している。 これらの設定のほとんどでは、ノイズとともにトレーニングデータセットを使用し、これは統計的変動の源として追加され、生成タスクに必須である。 本稿では,学習データセットから新たなデータポイントを生成する手段として,高次元カオスシステムの内部カオス力学を用いる方法を検討する。 単純な学習ルールは、一連のバニラアーキテクチャでこの目標を達成することができ、標準精度測定によって生成されたデータポイントの品質を特徴付けることができることを示す。

Generative modeling aims at producing new datapoints whose statistical properties resemble the ones in a training dataset. In recent years, there has been a burst of machine learning techniques and settings that can achieve this goal with remarkable performances. In most of these settings, one uses the training dataset in conjunction with noise, which is added as a source of statistical variability and is essential for the generative task. Here, we explore the idea of using internal chaotic dynamics in high-dimensional chaotic systems as a way to generate new datapoints from a training dataset. We show that simple learning rules can achieve this goal within a set of vanilla architectures and characterize the quality of the generated datapoints through standard accuracy measures.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# 電気通信のための大規模言語モデル(LLM:Large Language Model: 原則,鍵技術,機会に関する総合的な調査

Large Language Model (LLM) for Telecommunications: A Comprehensive Survey on Principles, Key Techniques, and Opportunities ( http://arxiv.org/abs/2405.10825v1 )

ライセンス: Link先を確認
Hao Zhou, Chengming Hu, Ye Yuan, Yufei Cui, Yili Jin, Can Chen, Haolun Wu, Dun Yuan, Li Jiang, Di Wu, Xue Liu, Charlie Zhang, Xianbin Wang, Jiangchuan Liu, (参考訳) 大規模言語モデル (LLM) は、その卓越した理解力と推論能力から近年注目されており、多くの分野で大きな進歩を遂げている。 LLM技術の進歩はまた、テレコミュニケーション(テレコム)分野における多くのタスクを自動化する有望な機会を提供する。 事前訓練と微調整の後、LLMは人間の指示に基づいて様々な下流タスクを実行でき、人工知能(AGI)対応の6Gへの道を歩むことができる。 LLM 技術の可能性を考えると,本研究は LLM 対応通信網を網羅的に概観することを目的としている。 特に,まず,モデルアーキテクチャ,事前学習,微調整,推論と利用,モデル評価,テレコム展開など,LCMの基本概念を提示する。 次に, LLM 対応キー技術とテレコムを, 生成, 分類, 最適化, 予測問題の観点から導入する。 具体的には、LLM対応のアプリケーションには、テレコムドメイン知識、コード、ネットワーク構成生成が含まれる。 その後、LLMベースの分類アプリケーションには、ネットワークセキュリティ、テキスト、画像、トラフィックの分類の問題が含まれる。 さらに、強化学習のための自動報酬関数設計や言語強化学習など、複数のLLM対応最適化技術も導入されている。 さらに,LLMを用いた予測問題に対して,時系列予測モデルとテレコムのマルチモーダリティ予測問題について議論した。 最後に,LLM対応通信ネットワークの課題と今後の方向性を明らかにする。

Large language models (LLMs) have received considerable attention recently due to their outstanding comprehension and reasoning capabilities, leading to great progress in many fields. The advancement of LLM techniques also offers promising opportunities to automate many tasks in the telecommunication (telecom) field. After pre-training and fine-tuning, LLMs can perform diverse downstream tasks based on human instructions, paving the way to artificial general intelligence (AGI)-enabled 6G. Given the great potential of LLM technologies, this work aims to provide a comprehensive overview of LLM-enabled telecom networks. In particular, we first present LLM fundamentals, including model architecture, pre-training, fine-tuning, inference and utilization, model evaluation, and telecom deployment. Then, we introduce LLM-enabled key techniques and telecom applications in terms of generation, classification, optimization, and prediction problems. Specifically, the LLM-enabled generation applications include telecom domain knowledge, code, and network configuration generation. After that, the LLM-based classification applications involve network security, text, image, and traffic classification problems. Moreover, multiple LLM-enabled optimization techniques are introduced, such as automated reward function design for reinforcement learning and verbal reinforcement learning. Furthermore, for LLM-aided prediction problems, we discussed time-series prediction models and multi-modality prediction problems for telecom. Finally, we highlight the challenges and identify the future directions of LLM-enabled telecom networks.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# 電気自動車用デジタルオーディオ放送システムにおけるインパルス干渉の解析

Analysis of Impulsive Interference in Digital Audio Broadcasting Systems in Electric Vehicles ( http://arxiv.org/abs/2405.10828v1 )

ライセンス: Link先を確認
Chin-Hung Chen, Wen-Hung Huang, Boris Karanov, Alex Young, Yan Wu, Wim van Houtum, (参考訳) 近年,コンバータスイッチングやバッテリチャージャーなどの電気自動車(EV)における新しいタイプの干渉が,無線デジタル伝送システムの性能の低下を招いている。 測定結果から、そのような干渉は衝動的な振る舞いによって特徴づけられ、時間とともに広く変化することが示された。 本稿では,我々のEVテストベッドから記録したデータを用いて,デジタルオーディオ放送帯域におけるインパルス干渉を解析する。 さらに、本分析を用いて、対応する干渉モデルを得る。 特に,干渉の時間的特性について検討し,その振幅が実際に衝動的挙動を示すことを確認した。 以上の結果から, インパルスイベントは連続した受信信号サンプルにまたがり, バースト特性を示すことがわかった。 そこで本稿では, バースト型インパルス干渉モデルであるマルコフ・ミドルトンモデルを用いて, 合成雑音実現のためのデータ駆動型モデルを構築した。 提案モデルに基づく最適シンボル検出器の設計について検討し, 付加的な白色ガウス雑音推定に基づく従来の検出器と比較して, 顕著な性能向上を示した。

Recently, new types of interference in electric vehicles (EVs), such as converters switching and/or battery chargers, have been found to degrade the performance of wireless digital transmission systems. Measurements show that such an interference is characterized by impulsive behavior and is widely varying in time. This paper uses recorded data from our EV testbed to analyze the impulsive interference in the digital audio broadcasting band. Moreover, we use our analysis to obtain a corresponding interference model. In particular, we studied the temporal characteristics of the interference and confirmed that its amplitude indeed exhibits an impulsive behavior. Our results show that impulsive events span successive received signal samples and thus indicate a bursty nature. To this end, we performed a data-driven modification of a well-established model for bursty impulsive interference, the Markov-Middleton model, to produce synthetic noise realization. We investigate the optimal symbol detector design based on the proposed model and show significant performance gains compared to the conventional detector based on the additive white Gaussian noise assumption.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# Open-Vocabulary Spatio-Temporal Action Detection

Open-Vocabulary Spatio-Temporal Action Detection ( http://arxiv.org/abs/2405.10832v1 )

ライセンス: Link先を確認
Tao Wu, Shuqiu Ge, Jie Qin, Gangshan Wu, Limin Wang, (参考訳) 時空間行動検出(STAD)はビデオ理解の重要なタスクである。 現在の手法では、事前にすべてのアクションクラスのボックスとラベルの監督が必要である。 しかし、実世界のアプリケーションでは、アクションカテゴリ空間が大きくて列挙が難しいため、トレーニングで見られない新しいアクションクラスに遭遇する可能性が非常に高い。 また、新しいクラスのデータアノテーションとモデルトレーニングのコストは、詳細なボックスアノテーションを実行し、ネットワーク全体をスクラッチから再トレーニングする必要があるため、従来のメソッドでは極めて高いです。 本稿では,オープンな世界における行動検出の状況をよりよく模倣するために,オープンな語彙STADを実行することで,新たな挑戦的設定を提案する。 Open-vocabulary Spatio-temporal Action Detection (OV-STAD) では,ボックスとラベルの監督による限定されたベースクラス上でモデルをトレーニングする必要がある。 OV-STADでは、既存のSTADデータセットに基づく2つのベンチマークを構築し、事前訓練されたビデオ言語モデル(VLM)に基づく単純で効果的な手法を提案する。 局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。 このカスタマイズされた微調整により、VLMはモーション理解を向上し、ビデオ領域とテキスト間のより正確なアライメントに寄与する。 グローバルコンテキストを提供することで、アクション検出性能をさらに向上するために、アライメント前の地域特徴とグローバルビデオ特徴融合を採用する。 本手法は,新しい授業における有望なパフォーマンスを実現する。

Spatio-temporal action detection (STAD) is an important fine-grained video understanding task. Current methods require box and label supervision for all action classes in advance. However, in real-world applications, it is very likely to come across new action classes not seen in training because the action category space is large and hard to enumerate. Also, the cost of data annotation and model training for new classes is extremely high for traditional methods, as we need to perform detailed box annotations and re-train the whole network from scratch. In this paper, we propose a new challenging setting by performing open-vocabulary STAD to better mimic the situation of action detection in an open world. Open-vocabulary spatio-temporal action detection (OV-STAD) requires training a model on a limited set of base classes with box and label supervision, which is expected to yield good generalization performance on novel action classes. For OV-STAD, we build two benchmarks based on the existing STAD datasets and propose a simple but effective method based on pretrained video-language models (VLM). To better adapt the holistic VLM for the fine-grained action detection task, we carefully fine-tune it on the localized video region-text pairs. This customized fine-tuning endows the VLM with better motion understanding, thus contributing to a more accurate alignment between video regions and texts. Local region feature and global video feature fusion before alignment is adopted to further improve the action detection performance by providing global context. Our method achieves a promising performance on novel classes.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# CTおよびMRIによる頭頸部癌リスク臓器の自動分別

Automatic segmentation of Organs at Risk in Head and Neck cancer patients from CT and MRI scans ( http://arxiv.org/abs/2405.10833v1 )

ライセンス: Link先を確認
Sébastien Quetin, Andrew Heschl, Mauricio Murillo, Murali Rohit, Shirin A. Enger, Farhad Maleki, (参考訳) 背景と目的: 深層学習(DL)は、OAR(Organs at Risk)セグメンテーションのために広く研究されてきたが、ほとんどの研究は、CTとMRIの両方を同時に扱うのではなく、単一のモダリティに焦点を当てている。 本研究は,頭頸部癌(H&N)患者のMRIおよびCTによる30個のOARのセグメンテーションのための高性能DLパイプラインを提案する。 材料および方法: H&N OAR CT & MRセグメンテーション課題データセットから得られた30OARのアノテーションとともに,42H&N癌患者のペアCTとMRI-T1画像を用いてセグメンテーションパイプラインを構築した。 無関係領域の伐採後,CTおよびMRIボリュームの非厳格な登録を施行した。 軟部組織と骨解剖の2種類のCT容積をMRI容積に積み重ね, nnU-Netパイプラインへの入力として使用した。 モダリティ・ドロップアウト(Modality Dropout)は、トレーニング中に異なるモダリティからモデルを学習させるために使用された。 分離マスクは,14人の新規患者を対象としたトレーニングモデルを用いて予測した。 Dice Score (DS) と Hausdorff Distance (HD) を各OAR患者に対して算出し, パイプラインの評価を行った。 その結果、DSとHDの合計は0.777+-0.118と3.455+-1.679となり、提出時点ではSOTA(State-of-the-art)が確立した。 結論: 提案パイプラインはH&N OAR CTおよびMRセグメンテーションチャレンジの参加者の中で最高のDSとHDを達成し, H&N OARの自動セグメンテーションのための新しいSOTAを設定した。

Background and purpose: Deep Learning (DL) has been widely explored for Organs at Risk (OARs) segmentation; however, most studies have focused on a single modality, either CT or MRI, not both simultaneously. This study presents a high-performing DL pipeline for segmentation of 30 OARs from MRI and CT scans of Head and Neck (H&N) cancer patients. Materials and methods: Paired CT and MRI-T1 images from 42 H&N cancer patients alongside annotation for 30 OARs from the H&N OAR CT & MR segmentation challenge dataset were used to develop a segmentation pipeline. After cropping irrelevant regions, rigid followed by non-rigid registration of CT and MRI volumes was performed. Two versions of the CT volume, representing soft tissues and bone anatomy, were stacked with the MRI volume and used as input to an nnU-Net pipeline. Modality Dropout was used during the training to force the model to learn from the different modalities. Segmentation masks were predicted with the trained model for an independent set of 14 new patients. The mean Dice Score (DS) and Hausdorff Distance (HD) were calculated for each OAR across these patients to evaluate the pipeline. Results: This resulted in an overall mean DS and HD of 0.777 +- 0.118 and 3.455 +- 1.679, respectively, establishing the state-of-the-art (SOTA) for this challenge at the time of submission. Conclusion: The proposed pipeline achieved the best DS and HD among all participants of the H&N OAR CT and MR segmentation challenge and sets a new SOTA for automated segmentation of H&N OARs.
翻訳日:2024-05-20 15:53:32 公開日:2024-05-17
# ド・ジッター時空における確率的インフレーションとエントロピー境界

Stochastic inflation and entropy bound in de Sitter spacetime ( http://arxiv.org/abs/2405.10837v1 )

ライセンス: Link先を確認
Hiromasa Tajima, Yasusada Nambu, (参考訳) インフレーション相におけるド・ジッター時空のエントロピー挙動を解析した。 デ・シッター時空では、観測者の因果アクセス領域を制約する宇宙的地平線が、ブラックホールの事象地平線に類似した熱的性質を示す。 ホログラフィーの原理から、観測者の因果連結領域内のエントロピーはその境界領域によって制約される。 このエントロピー境界はインフレの後期で破られる。 量子情報の観点からのエントロピー境界違反の問題に対処するために、宇宙のインフレーションに対する確率的アプローチを採用する。 インフレーションにおけるエントロピー境界の問題を修正するために、ブラックホールの文脈におけるページ曲線の導出に従う。 インフラトン場に体積重み付き確率分布を適用することにより、ド・ジッター時空における有意義なエントロピーの挙動を得る。

We analyze the entropy behavior of the de Sitter spacetime during the inflationary phase. In the de Sitter spacetime, a cosmological horizon that constrains the causal accessible region of an observer, exhibits thermal properties analogous to the event horizon of a black hole. From the principle of holography, the entropy within the causally connected region for an observer is constrained by the area of its boundary. This entropy bound is violated in the late stage of inflation. To address the issue of entropy bound violation from a perspective of quantum information, we adopt the stochastic approach to cosmic inflation. To reformulate the issue of entropy bound in the inflation, we follow the derivation of the Page curve in the black hole context. By adopting the volume-weighted probability distribution for the inflaton field, we obtain a meaningful entropy behavior in the de Sitter spacetime.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# 主成分分析によるモデル直交化とベイズ予測混合

Model orthogonalization and Bayesian forecast mixing via Principal Component Analysis ( http://arxiv.org/abs/2405.10839v1 )

ライセンス: Link先を確認
Pablo Giuliani, Kyle Godbey, Vojtech Kejzlar, Witold Nazarewicz, (参考訳) ベイズ統計機械学習フレームワークを用いて不完全な複雑な計算モデルの予測を組み合わせることにより、未知領域の予測可能性を向上させることができる。 しかし、多くの場合、混合プロセスで使用されるモデルは類似している。 モデル空間の汚染に加えて、マルチモデリング過程における同様の、あるいは冗長なモデルの存在は、結果の誤解釈と予測性能の劣化をもたらす可能性がある。 本稿では,モデル冗長性を排除した主成分分析に基づく手法について述べる。 提案するベイズモデル組合せフレームワークにモデル直交化を加えることで、予測精度が向上し、不確実な定量化性能に優れたことを示す。

One can improve predictability in the unknown domain by combining forecasts of imperfect complex computational models using a Bayesian statistical machine learning framework. In many cases, however, the models used in the mixing process are similar. In addition to contaminating the model space, the existence of such similar, or even redundant, models during the multimodeling process can result in misinterpretation of results and deterioration of predictive performance. In this work we describe a method based on the Principal Component Analysis that eliminates model redundancy. We show that by adding model orthogonalization to the proposed Bayesian Model Combination framework, one can arrive at better prediction accuracy and reach excellent uncertainty quantification performance.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# 放射線診断の自動化 : 最近の進歩を振り返って

Automated Radiology Report Generation: A Review of Recent Advances ( http://arxiv.org/abs/2405.10842v1 )

ライセンス: Link先を確認
Phillip Sloan, Philip Clatworthy, Edwin Simpson, Majid Mirmehdi, (参考訳) 医療画像部門の需要が高まる中、放射線技師がタイムリーで正確なレポートを配信する能力に負担がかかっている。 人工知能の最近の技術進歩は、自動放射線学レポート生成(ARRG)に大きな可能性を示し、研究の爆発を引き起こした。 本稿では,現代ARRG手法の方法論的考察を行う。 (i)可用性、サイズ、採用率などの特性に基づくデータセットの評価。 二 コントラスト学習、強化学習等の深層学習訓練方法を検討すること。 3) CNNとトランスフォーマーモデルのバリエーションを含む最先端のモデルアーキテクチャを探求すること。 四 マルチモーダル入力及び知識グラフによる臨床知識の統合に関するアウトライン技術及び (v) 一般的に適用されるNLP測定値や質的臨床評価を含む, 現行モデル評価手法の精査を行った。 さらに、レビューされたモデルの定量的結果を分析し、トップパフォーマンスモデルを調べ、さらなる洞察を求める。 最後に、潜在的な新しい方向が強調され、他の放射線学的モダリティから追加のデータセットが採用され、将来の発展の重要な領域として予測される評価方法が改善された。

Increasing demands on medical imaging departments are taking a toll on the radiologist's ability to deliver timely and accurate reports. Recent technological advances in artificial intelligence have demonstrated great potential for automatic radiology report generation (ARRG), sparking an explosion of research. This survey paper conducts a methodological review of contemporary ARRG approaches by way of (i) assessing datasets based on characteristics, such as availability, size, and adoption rate, (ii) examining deep learning training methods, such as contrastive learning and reinforcement learning, (iii) exploring state-of-the-art model architectures, including variations of CNN and transformer models, (iv) outlining techniques integrating clinical knowledge through multimodal inputs and knowledge graphs, and (v) scrutinising current model evaluation techniques, including commonly applied NLP metrics and qualitative clinical reviews. Furthermore, the quantitative results of the reviewed models are analysed, where the top performing models are examined to seek further insights. Finally, potential new directions are highlighted, with the adoption of additional datasets from other radiological modalities and improved evaluation methods predicted as important areas of future development.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# 要求トレーサビリティのための自然言語処理

Natural Language Processing for Requirements Traceability ( http://arxiv.org/abs/2405.10845v1 )

ライセンス: Link先を確認
Jin L. C. Guo, Jan-Philipp Steghöfer, Andreas Vogelsang, Jane Cleland-Huang, (参考訳) トレーサビリティ(Traceability)とは、ソフトウェアの品質とその開発プロセスに関する推論を支援する、関連するソフトウェアアーチファクトをトレースする能力である。 本章では、自然言語処理(NLP)および関連技術が過去10年間に大きく進歩した要求トレーサビリティにおける代表的タスクの概要を概説する。 まず、トレーサビリティの定義を、要求と全体のエンジニアリングプロセス、およびトレーサビリティタスクに関連するその他の重要な概念の文脈で提示する。 次に、トレースリンクの回復とトレースリンクの保守を含む2つのタスクについて詳述する。 また、トレースリンクを実践的な文脈で使用する際の2つの関連タスクについても紹介する。 各タスクに対して、タスクの特性、NLP手法によるアプローチ方法、NLP技術の性能を示す実験の設計と実行方法について説明する。 さらに,NLP手法を効果的に適用するための実践的考察と,NLP手法の評価において,データセット収集,メトリクス選択,人間の役割についての有効性を評価する。 全体として、この章では、NLPが実際に実現した自動化トレーサビリティソリューションの設計に関する基本的な知識を読者に提供します。

Traceability, the ability to trace relevant software artifacts to support reasoning about the quality of the software and its development process, plays a crucial role in requirements and software engineering, particularly for safety-critical systems. In this chapter, we provide a comprehensive overview of the representative tasks in requirement traceability for which natural language processing (NLP) and related techniques have made considerable progress in the past decade. We first present the definition of traceability in the context of requirements and the overall engineering process, as well as other important concepts related to traceability tasks. Then, we discuss two tasks in detail, including trace link recovery and trace link maintenance. We also introduce two other related tasks concerning when trace links are used in practical contexts. For each task, we explain the characteristics of the task, how it can be approached through NLP techniques, and how to design and conduct the experiment to demonstrate the performance of the NLP techniques. We further discuss practical considerations on how to effectively apply NLP techniques and assess their effectiveness regarding the data set collection, the metrics selection, and the role of humans when evaluating the NLP approaches. Overall, this chapter prepares the readers with the fundamental knowledge of designing automated traceability solutions enabled by NLP in practice.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# テスト駆動開発のためのジェネレーティブAI:予備的な結果

Generative AI for Test Driven Development: Preliminary Results ( http://arxiv.org/abs/2405.10849v1 )

ライセンス: Link先を確認
Moritz Mock, Jorge Melegati, Barbara Russo, (参考訳) テスト駆動開発(TDD)はエクストリームプログラミングの主要なプラクティスの1つで、漸進的なテストとリファクタリングによってコード開発が引き起こされる。 TDDは、開発や経験豊富な開発者を必要とするため、業界では採用が限られています。 ジェネレーティブAI(GenAI)は、TDDによって課される余分な労力を減らすことができる。 本稿では、開発者がテストを作成し、イテレーション毎にAI生成を監督するコラボレーティブなインタラクションパターン、あるいは開発者がイテレーションの最後にのみAI生成を監督する完全に自動化されたパターンのいずれかにGenAIを取り入れてTDDを自動化するアプローチを紹介します。 ChatGPTで探索的な実験を行い、テストやコード品質、開発速度に関する非AITDDと相互作用パターンを比較します。 全体として、実験と設定では、GenAIはTDDで効率的に使用できますが、生成されたコードの品質を監督する必要があります。 場合によっては、専門家でない開発者を誤解させ、クエリのためだけにソリューションを提案することもある。

Test Driven Development (TDD) is one of the major practices of Extreme Programming for which incremental testing and refactoring trigger the code development. TDD has limited adoption in the industry, as it requires more code to be developed and experienced developers. Generative AI (GenAI) may reduce the extra effort imposed by TDD. In this work, we introduce an approach to automatize TDD by embracing GenAI either in a collaborative interaction pattern in which developers create tests and supervise the AI generation during each iteration or a fully-automated pattern in which developers only supervise the AI generation at the end of the iterations. We run an exploratory experiment with ChatGPT in which the interaction patterns are compared with the non-AI TDD regarding test and code quality and development speed. Overall, we found that, for our experiment and settings, GenAI can be efficiently used in TDD, but it requires supervision of the quality of the produced code. In some cases, it can even mislead non-expert developers and propose solutions just for the sake of the query.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# KernelSHAP-IQ:共有インタラクションのための重み付き最小二乗最適化

KernelSHAP-IQ: Weighted Least-Square Optimization for Shapley Interactions ( http://arxiv.org/abs/2405.10852v1 )

ライセンス: Link先を確認
Fabian Fumagalli, Maximilian Muschalik, Patrick Kolpaczki, Eyke Hüllermeier, Barbara Hammer, (参考訳) Shapley値(SV)は、ブラックボックスMLモデルを理解するために、クレジットカードを機械学習(ML)エンティティに割り当てる一般的なアプローチである。 このような解釈を高次相互作用で強化することは、Shapley Interaction Index (SII) がSVの直接公理的拡張である複雑なシステムでは避けられない。 SVが重み付き最小二乗(WLS)の目的によって任意のゲームの最適近似を得られることはよく知られているが、この結果のSIIへの拡張は長い間未解決の問題であり、代替指標の提案さえも導いた。 本研究では、WLS問題の解として高階SIIを特徴付け、SIIと$k$-Shapley値(k$-SII)による最適近似を構築する。 SV とペアワイズ SII に対してこの表現を証明し、より高い順序に対して経験的に検証された予想を与える。 その結果、SII 用 KernelSHAP の直接拡張である KernelSHAP-IQ を提案し、機能相互作用の最先端性能を示す。

The Shapley value (SV) is a prevalent approach of allocating credit to machine learning (ML) entities to understand black box ML models. Enriching such interpretations with higher-order interactions is inevitable for complex systems, where the Shapley Interaction Index (SII) is a direct axiomatic extension of the SV. While it is well-known that the SV yields an optimal approximation of any game via a weighted least square (WLS) objective, an extension of this result to SII has been a long-standing open problem, which even led to the proposal of an alternative index. In this work, we characterize higher-order SII as a solution to a WLS problem, which constructs an optimal approximation via SII and $k$-Shapley values ($k$-SII). We prove this representation for the SV and pairwise SII and give empirically validated conjectures for higher orders. As a result, we propose KernelSHAP-IQ, a direct extension of KernelSHAP for SII, and demonstrate state-of-the-art performance for feature interactions.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# 大規模言語モデル事前学習の今後

The Future of Large Language Model Pre-training is Federated ( http://arxiv.org/abs/2405.10853v1 )

ライセンス: Link先を確認
Lorenzo Sani, Alex Iacob, Zeyu Cao, Bill Marino, Yan Gao, Tomas Paulik, Wanru Zhao, William F. Shen, Preslav Aleksandrov, Xinchi Qiu, Nicholas D. Lane, (参考訳) 生成事前訓練された大規模言語モデル(LLM)は、トレーニングされた前例のない量のデータのおかげで、広範囲のタスクに対して素晴らしいパフォーマンスを示している。 確立されたスケーリング法則が示すように、LCMの将来的なパフォーマンス改善は、事前トレーニングに利用できる計算量とデータソースに依存する。 フェデレーテッド・ラーニング(FL)は、現在のLLMの実践において、データセンター中心のトレーニング手法によって未利用である、地球のデータと計算資源の大部分を解き放つ可能性を持っている。 我々の研究は、LLMを訓練する機関間で大規模なコラボレーションを可能にする、堅牢で柔軟で再現可能なFLアプローチを提示している。 これにより、より多くの計算リソースとデータリソースが動員されると同時に、中央集権的なパフォーマンスを達成または超える可能性がある。 さらに,モデルサイズによるフェデレーション・トレーニング・スケールの有効性を示すとともに,限られた資源を用いて10億規模のフェデレーション・LLMをトレーニングするためのアプローチを提案する。 これにより、データリッチアクターは、計算リッチアクターだけでステージを離れるのではなく、LCMの事前トレーニングの主人公になる。

Generative pre-trained large language models (LLMs) have demonstrated impressive performance over a wide range of tasks, thanks to the unprecedented amount of data they have been trained on. As established scaling laws indicate, LLMs' future performance improvement depends on the amount of computing and data sources we can leverage for pre-training. Federated learning (FL) has the potential to unleash the majority of the planet's data and computational resources, which are underutilized by the data-center-focused training methodology of current LLM practice. Our work presents a robust, flexible, reproducible FL approach that enables large-scale collaboration across institutions to train LLMs. This would mobilize more computational and data resources while matching or potentially exceeding centralized performance. We further show the effectiveness of the federated training scales with model size and present our approach for training a billion-scale federated LLM using limited resources. This will help data-rich actors to become the protagonists of LLMs pre-training instead of leaving the stage to compute-rich actors alone.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# ECR-Chain: Reasoning Chainsを通じて、生成言語モデルを改善して感情・因果関係を改善する

ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains ( http://arxiv.org/abs/2405.10860v1 )

ライセンス: Link先を確認
Zhaopei Huang, Jinming Zhao, Qin Jin, (参考訳) 感情生成の過程を理解することは、感情の背後にある原因を分析するのに不可欠である。 CEE(Causal Emotion Entailment)は、ターゲット発話で表される感情を刺激する会話における因果発話を特定することを目的としている。 しかし、CEEにおける現在の研究は主に、感情生成過程の探索を無視して、会話における意味的および感情的相互作用をモデル化することに焦点を当てている。 これにより、モデルが感情の深い理解を妨げ、説明可能な予測を生成する能力を制限する。 本研究は、認知的評価理論における「刺激・評価・感情」の感情生成過程に着想を得て、会話中の対象の感情表現から刺激を推測するために、ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。 具体的には、まず、ChatGPT に数発のプロンプトで ECR-Chain を導入し、CEE タスクの性能を大幅に改善する。 ECR-Chain セットの構築において ChatGPT を利用する自動構築プロセスを提案する。これにより,教師付きトレーニングによる小型モデルの推論能力を高め,最先端の CEE 性能を実現する上で Vicuna-7B モデルを支援することができる。 さらに,これらの生成言語モデルを用いて,感情による推論を説明可能な方法で効果的に行うことができる。 私たちのコード、データ、詳細はhttps://github.com/hzp3517/ECR-Chain.orgにある。

Understanding the process of emotion generation is crucial for analyzing the causes behind emotions. Causal Emotion Entailment (CEE), an emotion-understanding task, aims to identify the causal utterances in a conversation that stimulate the emotions expressed in a target utterance. However, current works in CEE mainly focus on modeling semantic and emotional interactions in conversations, neglecting the exploration of the emotion-generation process. This hinders the models from deeply understanding emotions, restricting their ability to produce explainable predictions. In this work, inspired by the emotion generation process of "stimulus-appraisal-emotion" in the cognitive appraisal theory, we introduce a step-by-step reasoning method, Emotion-Cause Reasoning Chain (ECR-Chain), to infer the stimulus from the target emotional expressions in conversations. Specifically, we first introduce the ECR-Chain to ChatGPT via few-shot prompting, which significantly improves its performance on the CEE task. We further propose an automated construction process to utilize ChatGPT in building an ECR-Chain set, which can enhance the reasoning abilities of smaller models through supervised training and assist the Vicuna-7B model in achieving state-of-the-art CEE performance. Moreover, our methods can enable these generative language models to effectively perform emotion-cause reasoning in an explainable manner. Our code, data and more details are at https://github.com/hzp3517/ECR-Chain.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# Common-Ground Opinions を用いたワクチンメッセージングの試行

Tailoring Vaccine Messaging with Common-Ground Opinions ( http://arxiv.org/abs/2405.10861v1 )

ライセンス: Link先を確認
Rickard Stureborg, Sanxing Chen, Ruoyu Xie, Aayushi Patel, Christopher Li, Chloe Qinyu Zhu, Tingnan Hu, Jun Yang, Bhuwan Dhingra, (参考訳) チャットボットのインタラクションをパーソナライズする方法の1つは、意図した読者との共通基盤を確立することである。 相互理解の確立が特に影響のある分野は、ワクチンの懸念と誤報である。 ワクチンの介入は、予防接種に関する懸念に答えるためのメッセージングの形式である。 意見の相違がほとんどないため、この領域での意見の調整は困難である。 我々は、ワクチンの介入をCGO(Common-Ground Opinion)に合わせるタスクを定義する。 CGOに対する回答の調整は、読者が持っている意見や信念に関連付けることによって、回答を有意義に改善する。 本稿では,提供されたCGOに対して,応答がどの程度適切に調整されているかを評価するデータセットであるTAILOR-CGOを紹介する。 GPT-4-Turbo の精度は,GPT-4-Turbo よりも優れていた。 また、細粒化LDMよりも効率よく正確なBERTモデル、CGOへのワクチンメッセージングの調整を成功させる方法、この調査から実行可能なレコメンデーションなど、自動評価指標を構築した。 コードとモデルの重み: https://github.com/rickardstureborg/tailor-cgo Dataset: https://huggingface.co/datasets/DukeNLP/tailor-cgo

One way to personalize chatbot interactions is by establishing common ground with the intended reader. A domain where establishing mutual understanding could be particularly impactful is vaccine concerns and misinformation. Vaccine interventions are forms of messaging which aim to answer concerns expressed about vaccination. Tailoring responses in this domain is difficult, since opinions often have seemingly little ideological overlap. We define the task of tailoring vaccine interventions to a Common-Ground Opinion (CGO). Tailoring responses to a CGO involves meaningfully improving the answer by relating it to an opinion or belief the reader holds. In this paper we introduce TAILOR-CGO, a dataset for evaluating how well responses are tailored to provided CGOs. We benchmark several major LLMs on this task; finding GPT-4-Turbo performs significantly better than others. We also build automatic evaluation metrics, including an efficient and accurate BERT model that outperforms finetuned LLMs, investigate how to successfully tailor vaccine messaging to CGOs, and provide actionable recommendations from this investigation. Code and model weights: https://github.com/rickardstureborg/tailor-cgo Dataset: https://huggingface.co/datasets/DukeNLP/tailor-cgo
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# 合成キャプションによる顔の質向上とプロンプト追従

Improving face generation quality and prompt following with synthetic captions ( http://arxiv.org/abs/2405.10864v1 )

ライセンス: Link先を確認
Michail Tarasiou, Stylianos Moschoglou, Jiankang Deng, Stefanos Zafeiriou, (参考訳) 拡散モデルを用いたテキスト・画像生成の最近の進歩は、生成画像の品質を大幅に向上させ、幅広い物体を描写する能力を拡大した。 しかし、これらのモデルがテキストのプロンプトに密着することを保証することは、依然として大きな課題である。 この問題は、人間のフォトリアリスティック画像を生成しようとするときに特に顕著である。 重要なプロンプトエンジニアリングの努力がなければ、モデルはしばしば非現実的なイメージを生成し、通常、プロンプト情報の完全な範囲を組み込むことができない。 この制限は主に、大規模な拡散モデルの訓練に使用される画像に付随するキャプションの性質に起因する。 本稿では、人物画像から正確な外観記述を生成するための訓練不要パイプラインを導入することにより、この問題に対処する。 この手法を用いて、公開顔データセットの約25万キャプションを作成する。 次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。 その結果,本手法は,高品質で現実的な人間の顔を生成する能力を大幅に向上し,ベースラインモデルと比較して,与えられたプロンプトへの付着性を高めることが示唆された。 合成キャプション、事前訓練されたチェックポイント、トレーニングコードを共有します。

Recent advancements in text-to-image generation using diffusion models have significantly improved the quality of generated images and expanded the ability to depict a wide range of objects. However, ensuring that these models adhere closely to the text prompts remains a considerable challenge. This issue is particularly pronounced when trying to generate photorealistic images of humans. Without significant prompt engineering efforts models often produce unrealistic images and typically fail to incorporate the full extent of the prompt information. This limitation can be largely attributed to the nature of captions accompanying the images used in training large scale diffusion models, which typically prioritize contextual information over details related to the person's appearance. In this paper we address this issue by introducing a training-free pipeline designed to generate accurate appearance descriptions from images of people. We apply this method to create approximately 250,000 captions for publicly available face datasets. We then use these synthetic captions to fine-tune a text-to-image diffusion model. Our results demonstrate that this approach significantly improves the model's ability to generate high-quality, realistic human faces and enhances adherence to the given prompts, compared to the baseline model. We share our synthetic captions, pretrained checkpoints and training code.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# 電子文書の空気署名とプライバシ保護による署名検証

Air Signing and Privacy-Preserving Signature Verification for Digital Documents ( http://arxiv.org/abs/2405.10868v1 )

ライセンス: Link先を確認
P. Sarveswarasarma, T. Sathulakjan, V. J. V. Godfrey, Thanuja D. Ambegoda, (参考訳) 本稿では、カメラベースのインタラクションシステム、手話認識のためのシングルフィンガートラッキング、ハンドジェスチャを実行するマルチコマンドを用いて、電子文書のデジタル署名に対する新しいアプローチを提案する。 提案したソリューションは"Air Signature"と呼ばれ、マウスの描画や紙に物理的に署名したり、ウェブカメラに見せたりするといった従来の方法に頼るのではなく、カメラの前で署名を書く。 目標は、ジェスチャーやオブジェクトをリアルタイムで検出・追跡する最先端の手法を開発することである。 提案手法は,既存のジェスチャー認識と物体追跡システムの適用,平滑化と線描画による精度の向上,高速指の動きの連続性維持を含む。 提案手法の有効性を評価するため,指先検出,スケッチ,および全体的な署名処理の評価を行う。 本研究の目的は,ユーザのユニークな署名を効果的に認識できるモデルを開発することである。 このタイプのシグネチャは、署名の移動、速度、ストロークピクセルをリアルタイムで分析する神経コアによって検証することができる。 ニューラルネットワークは、機械学習アルゴリズムを使用して、個々の格納されたシグネチャに空気シグネチャをマッチングし、セキュアで効率的な検証方法を提供する。 提案システムでは,センサやカメラ以外のハードウェアは不要である。

This paper presents a novel approach to the digital signing of electronic documents through the use of a camera-based interaction system, single-finger tracking for sign recognition, and multi commands executing hand gestures. The proposed solution, referred to as "Air Signature," involves writing the signature in front of the camera, rather than relying on traditional methods such as mouse drawing or physically signing on paper and showing it to a web camera. The goal is to develop a state-of-the-art method for detecting and tracking gestures and objects in real-time. The proposed methods include applying existing gesture recognition and object tracking systems, improving accuracy through smoothing and line drawing, and maintaining continuity during fast finger movements. An evaluation of the fingertip detection, sketching, and overall signing process is performed to assess the effectiveness of the proposed solution. The secondary objective of this research is to develop a model that can effectively recognize the unique signature of a user. This type of signature can be verified by neural cores that analyze the movement, speed, and stroke pixels of the signing in real time. The neural cores use machine learning algorithms to match air signatures to the individual's stored signatures, providing a secure and efficient method of verification. Our proposed System does not require sensors or any hardware other than the camera.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# ディープラーニング脳転移自動分離のためのマルチセンタープライバシ保存モデルトレーニング

Multicenter Privacy-Preserving Model Training for Deep Learning Brain Metastases Autosegmentation ( http://arxiv.org/abs/2405.10870v1 )

ライセンス: Link先を確認
Yixing Huang, Zahra Khodabakhshi, Ahmed Gomaa, Manuel Schmidt, Rainer Fietkau, Matthias Guckenberger, Nicolaus Andratschke, Christoph Bert, Stephanie Tanadini-Lang, Florian Putz, (参考訳) 目的:本研究の目的は,マルチセンターデータの不均一性が深層学習脳転移(BM)自己セグメンテーション性能に及ぼす影響について検討し,生データを共有することなくモデル一般化性を向上させるために,LWF(Learly without forgeting)というインクリメンタルトランスファーラーニング技術の有効性を評価することである。 材料と方法: この評価には, 大学病院 Erlangen (UKER), University Hospital Zurich (USZ), Stanford, UCSF, NYU, BraTS Challenge 2023 の合計6つのBMデータセットを用いた。 まず、BMオートセグメンテーションのための畳み込みニューラルネットワーク(DeepMedic)のマルチセンタ性能を、排他的な単一センタトレーニングとプールデータトレーニングのために確立した。 その後、LWFの有無にかかわらず、転送学習(TL)を用いたさらなるトレーニングのために、UKER事前訓練モデルが他のセンターに共有され、双方向コラボレーションが評価された。 結果: 単核実験では, BM検出値の平均値が0.625 (NYU) から0.876 (UKER) の範囲である。 混合マルチセンタートレーニングは、スタンフォードとニューヨークでのF1スコアを特に改善し、他のセンターでは無視できる改善である。 UKERプレトレーニングモデルがUSZに適用された場合、LWFはUKERとUSZテストデータの組み合わせで、単純TL(0.570)よりも平均F1スコア(0.839)、シングルセンタートレーニング(0.688)を達成する。 Naive TLは感度とコンチューリング精度を改善するが、精度を損なう。 逆に、LWFは信頼できる感度、精度、コントゥーリングの正確さを示す。 スタンフォードに適用されると、同様のパフォーマンスが観察された。 結論: データの異質性はBMオートセグメンテーションにおける様々なパフォーマンスをもたらし、一般化可能性のモデル化に挑戦する。 LWFは、ピアツーピアのプライバシ保存モデルトレーニングに対する有望なアプローチである。

Objectives: This work aims to explore the impact of multicenter data heterogeneity on deep learning brain metastases (BM) autosegmentation performance, and assess the efficacy of an incremental transfer learning technique, namely learning without forgetting (LWF), to improve model generalizability without sharing raw data. Materials and methods: A total of six BM datasets from University Hospital Erlangen (UKER), University Hospital Zurich (USZ), Stanford, UCSF, NYU and BraTS Challenge 2023 on BM segmentation were used for this evaluation. First, the multicenter performance of a convolutional neural network (DeepMedic) for BM autosegmentation was established for exclusive single-center training and for training on pooled data, respectively. Subsequently bilateral collaboration was evaluated, where a UKER pretrained model is shared to another center for further training using transfer learning (TL) either with or without LWF. Results: For single-center training, average F1 scores of BM detection range from 0.625 (NYU) to 0.876 (UKER) on respective single-center test data. Mixed multicenter training notably improves F1 scores at Stanford and NYU, with negligible improvement at other centers. When the UKER pretrained model is applied to USZ, LWF achieves a higher average F1 score (0.839) than naive TL (0.570) and single-center training (0.688) on combined UKER and USZ test data. Naive TL improves sensitivity and contouring accuracy, but compromises precision. Conversely, LWF demonstrates commendable sensitivity, precision and contouring accuracy. When applied to Stanford, similar performance was observed. Conclusion: Data heterogeneity results in varying performance in BM autosegmentation, posing challenges to model generalizability. LWF is a promising approach to peer-to-peer privacy-preserving model training.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# BraTS-Path Challenge: Heterogeneous Histopathological Brain tumor sub- Regions

BraTS-Path Challenge: Assessing Heterogeneous Histopathologic Brain Tumor Sub-regions ( http://arxiv.org/abs/2405.10871v1 )

ライセンス: Link先を確認
Spyridon Bakas, Siddhesh P. Thakur, Shahriar Faghani, Mana Moassefi, Ujjwal Baid, Verena Chung, Sarthak Pati, Shubham Innani, Bhakti Baheti, Jake Albrecht, Alexandros Karargyris, Hasan Kassem, MacLean P. Nasrallah, Jared T. Ahrendsen, Valeria Barresi, Maria A. Gubbiotti, Giselle Y. López, Calixto-Hope G. Lucas, Michael L. Miller, Lee A. D. Cooper, Jason T. Huse, William R. Bell, (参考訳) グリオブラスト腫は、治療後12~18カ月の生存期間と4カ月の生存期間を有する、最も一般的な成人脳腫瘍である。 グリオ芽腫は脳半球に広く浸潤しており、異種分子および微小環境の病理組織学的プロファイルにより明確に定義されており、治療の大きな障害となっている。 これらの腫瘍を正しく診断し、不均一性を評価することは、正確な治療を選択し、患者の生存率を高めるために重要である。 腫瘍診断に対する金本位組織学的アプローチでは, 異型組織像の様々な形態学的特徴を検出することが重要である。 このような「特徴」には、細胞腫瘍の存在、地理的壊死、擬似パリジン性壊死、微小血管増殖に富む領域、大脳皮質への浸潤、皮質下白質の広範な拡張、レプトシンゲインの浸潤、マクロファージに密接な領域、血管周囲または散在するリンパ球の存在などがある。 これらの特徴を念頭に置いて、BraTS Cluster of Challenges https://www.synapse.org/brats2024の主目的に基づいて、BraTS-Pathチャレンジの目標は、組織的に準備された包括的なデータセットとベンチマーク環境を提供することで、異なる組織プロファイルの腫瘍サブリージョンを特定することができるディープラーニングモデルの開発と比較を行うことである。 これらのモデルは、病気の理解を深め、一貫した方法で疾患の診断と評価を支援することを目的としている。

Glioblastoma is the most common primary adult brain tumor, with a grim prognosis - median survival of 12-18 months following treatment, and 4 months otherwise. Glioblastoma is widely infiltrative in the cerebral hemispheres and well-defined by heterogeneous molecular and micro-environmental histopathologic profiles, which pose a major obstacle in treatment. Correctly diagnosing these tumors and assessing their heterogeneity is crucial for choosing the precise treatment and potentially enhancing patient survival rates. In the gold-standard histopathology-based approach to tumor diagnosis, detecting various morpho-pathological features of distinct histology throughout digitized tissue sections is crucial. Such "features" include the presence of cellular tumor, geographic necrosis, pseudopalisading necrosis, areas abundant in microvascular proliferation, infiltration into the cortex, wide extension in subcortical white matter, leptomeningeal infiltration, regions dense with macrophages, and the presence of perivascular or scattered lymphocytes. With these features in mind and building upon the main aim of the BraTS Cluster of Challenges https://www.synapse.org/brats2024, the goal of the BraTS-Path challenge is to provide a systematically prepared comprehensive dataset and a benchmarking environment to develop and fairly compare deep-learning models capable of identifying tumor sub-regions of distinct histologic profile. These models aim to further our understanding of the disease and assist in the diagnosis and grading of conditions in a consistent manner.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# 等角予測保証付き動的環境における再帰的に実現可能な収縮水平MPC

Recursively Feasible Shrinking-Horizon MPC in Dynamic Environments with Conformal Prediction Guarantees ( http://arxiv.org/abs/2405.10875v1 )

ライセンス: Link先を確認
Charis Stamouli, Lars Lindemann, George J. Pappas, (参考訳) 本稿では,不確実な動的環境におけるモデル予測制御(MPC)の縮小問題に焦点をあてる。 我々は、そのミッション中に制御不能な確率的エージェントと相互作用する決定論的自律システムを制御することを検討する。 コンフォーマルな予測からツールを活用することで、既存の作業は未知のエージェント軌道に対する高い信頼度予測領域を導き出し、これらの領域をMPCに適した安全制約の設計に統合する。 閉ループ軌道の確率論的安全性は保証されているが、これらの制約はミッション全体における各MPCスキームの実現性を保証するものではない。 我々は,新たな予測領域がオンライン化されるにつれて,安全制約の段階的緩和を通じて再帰的実現性を保証する縮小水平MPCを提案する。 この緩和は、利用可能な全ての予測領域の集合から、最小限の制限された予測領域を保持する安全制約を強制する。 最先端技術との比較ケーススタディでは,提案手法がより厳密な予測領域をもたらし,MPC方式の再帰可能性を検証することを実証的に示している。

In this paper, we focus on the problem of shrinking-horizon Model Predictive Control (MPC) in uncertain dynamic environments. We consider controlling a deterministic autonomous system that interacts with uncontrollable stochastic agents during its mission. Employing tools from conformal prediction, existing works derive high-confidence prediction regions for the unknown agent trajectories, and integrate these regions in the design of suitable safety constraints for MPC. Despite guaranteeing probabilistic safety of the closed-loop trajectories, these constraints do not ensure feasibility of the respective MPC schemes for the entire duration of the mission. We propose a shrinking-horizon MPC that guarantees recursive feasibility via a gradual relaxation of the safety constraints as new prediction regions become available online. This relaxation enforces the safety constraints to hold over the least restrictive prediction region from the set of all available prediction regions. In a comparative case study with the state of the art, we empirically show that our approach results in tighter prediction regions and verify recursive feasibility of our MPC scheme.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# WEITS: 解釈可能な時系列予測のためのウェーブレット強化残留フレームワーク

WEITS: A Wavelet-enhanced residual framework for interpretable time series forecasting ( http://arxiv.org/abs/2405.10877v1 )

ライセンス: Link先を確認
Ziyou Guo, Yan Sun, Tieru Wu, (参考訳) 時系列予測(TS)は、近年、科学とビジネスの両方分野でユビキタスに応用されている、前例のない問題である。 統計的アプローチとディープニューラルネットワークの両方を含む、時系列分析に様々なアプローチが導入されている。 ニューラルネットワークアプローチは、統計的手法よりも表現能力が強いことを示しているが、十分な解釈可能性の提供に苦慮しており、最適化するには複雑すぎる可能性がある。 本稿では,周波数認識型深層学習フレームワークWEITSについて述べる。 マルチレベルウェーブレット分解により、WEITSは周波数解析を高度に深層学習フレームワークに導入する。 前方後方残差アーキテクチャと組み合わせて、高い表現能力と統計的解釈性の両方を享受する。 実世界のデータセットに対する大規模な実験は、高い計算効率のさらなる利点とともに、我々のモデルの競争性能を実証した。 さらに、WEITSは時系列予測のために常に最先端のアプローチとシームレスに統合できる一般的なフレームワークを提供する。

Time series (TS) forecasting has been an unprecedentedly popular problem in recent years, with ubiquitous applications in both scientific and business fields. Various approaches have been introduced to time series analysis, including both statistical approaches and deep neural networks. Although neural network approaches have illustrated stronger ability of representation than statistical methods, they struggle to provide sufficient interpretablility, and can be too complicated to optimize. In this paper, we present WEITS, a frequency-aware deep learning framework that is highly interpretable and computationally efficient. Through multi-level wavelet decomposition, WEITS novelly infuses frequency analysis into a highly deep learning framework. Combined with a forward-backward residual architecture, it enjoys both high representation capability and statistical interpretability. Extensive experiments on real-world datasets have demonstrated competitive performance of our model, along with its additional advantage of high computation efficiency. Furthermore, WEITS provides a general framework that can always seamlessly integrate with state-of-the-art approaches for time series forecast.
翻訳日:2024-05-20 15:43:48 公開日:2024-05-17
# 1つの登録は2つのセグメンテーションの価値がある

One registration is worth two segmentations ( http://arxiv.org/abs/2405.10879v1 )

ライセンス: Link先を確認
Shiqi Huang, Tingfa Xu, Ziyi Shen, Shaheer Ullah Saeed, Wen Yan, Dean Barratt, Yipeng Hu, (参考訳) 画像登録の目的は、2つ以上の画像間の空間的対応を確立することであり、伝統的に密度変位場(DDF)やパラメトリック変換(例えば、剛性、アフィン、スプライン)を通して行われる。 空間変換によるアライメントを実現する既存のパラダイムを再考し、それに対応する領域-関心領域(ROI)ペアの集合を探索し、他の対応表現法と同様に十分な表現能力を持つことを示す。 そこで我々は,移動画像と固定画像の両方から,対応するROIの同じ集合を探索するものとして,画像登録を定式化し,一対のイメージに対して2つのマルチクラスセグメンテーションタスクを行う。 汎用的かつ実用的な実装として,提案アルゴリズムにセグメント・アズ・モデル(SAM)を組み込むことで,学習データや勾配に基づく微調整,あるいは工学的なプロンプトを必要としないSAM対応登録(SAMReg)を実現する。 前立腺MRI, 心臓MRI, 腹部CT画像の3つの臨床応用において, 複数のROIペアのセグメンテーションとマッチングが可能であることが実験的に確認された。 Diceと解剖学的構造上のターゲット登録エラーを含むメトリクスに基づいて、提案された登録は、強度に基づく反復アルゴリズムとDDF予測学習ベースネットワークの両方を上回り、完全に隔離されたトレーニングデータを必要とする弱い教師付き登録と競合するパフォーマンスを得る。

The goal of image registration is to establish spatial correspondence between two or more images, traditionally through dense displacement fields (DDFs) or parametric transformations (e.g., rigid, affine, and splines). Rethinking the existing paradigms of achieving alignment via spatial transformations, we uncover an alternative but more intuitive correspondence representation: a set of corresponding regions-of-interest (ROI) pairs, which we demonstrate to have sufficient representational capability as other correspondence representation methods.Further, it is neither necessary nor sufficient for these ROIs to hold specific anatomical or semantic significance. In turn, we formulate image registration as searching for the same set of corresponding ROIs from both moving and fixed images - in other words, two multi-class segmentation tasks on a pair of images. For a general-purpose and practical implementation, we integrate the segment anything model (SAM) into our proposed algorithms, resulting in a SAM-enabled registration (SAMReg) that does not require any training data, gradient-based fine-tuning or engineered prompts. We experimentally show that the proposed SAMReg is capable of segmenting and matching multiple ROI pairs, which establish sufficiently accurate correspondences, in three clinical applications of registering prostate MR, cardiac MR and abdominal CT images. Based on metrics including Dice and target registration errors on anatomical structures, the proposed registration outperforms both intensity-based iterative algorithms and DDF-predicting learning-based networks, even yielding competitive performance with weakly-supervised registration which requires fully-segmented training data.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# MESA Security Model 2.0: ステルスデータの流出を緩和するための動的フレームワーク

The MESA Security Model 2.0: A Dynamic Framework for Mitigating Stealth Data Exfiltration ( http://arxiv.org/abs/2405.10880v1 )

ライセンス: Link先を確認
Sanjeev Pratap Singh, Naveed Afzal, (参考訳) サイバー脅威の増大する複雑さは、ビジネス環境における現在のセキュリティフレームワークの包括的な再評価を要求する。 本研究は,隠蔽侵入,非検出性の拡張,機密データの不正拡散を特徴とする重要なサイバー脅威であるStealth Data Exfiltrationに焦点を当てる。 以上の結果から,従来の防衛戦略はこれらの高度な脅威に対処するに足りず,企業間の情報リスク管理の急激な転換の必要性を浮き彫りにしている。 社会工学、マルチベクター攻撃、ジェネラティブAIといった技術の発展によって引き起こされるサイバー脅威の進化する性質は、堅牢で適応可能で包括的なセキュリティ戦略の必要性を浮き彫りにしている。 この複雑な風景をナビゲートする際、潜在的な脅威を予測し、防衛を継続的に更新することが重要です。 本稿では,静的攻撃面に依存する従来の周辺モデルから,避けられない侵入に備えたよりダイナミックなフレームワークへの移行を提案する。 この提案されたモデルはMESA 2.0 Security Modelと呼ばれ、迅速な検出、即時応答、継続的なレジリエンスを優先し、組織が脅威を迅速に識別し、中立化する能力を高め、セキュリティ侵害の結果を大幅に減少させる。 この研究は、企業がセキュリティ管理に対する先進的で適応可能なアプローチを採用して、常に変化するサイバー脅威の状況に先んじていることを示唆している。

The rising complexity of cyber threats calls for a comprehensive reassessment of current security frameworks in business environments. This research focuses on Stealth Data Exfiltration, a significant cyber threat characterized by covert infiltration, extended undetectability, and unauthorized dissemination of confidential data. Our findings reveal that conventional defense-in-depth strategies often fall short in combating these sophisticated threats, highlighting the immediate need for a shift in information risk management across businesses. The evolving nature of cyber threats, driven by advancements in techniques such as social engineering, multi-vector attacks, and Generative AI, underscores the need for robust, adaptable, and comprehensive security strategies. As we navigate this complex landscape, it is crucial to anticipate potential threats and continually update our defenses. We propose a shift from traditional perimeter-based, prevention-focused models, which depend on a static attack surface, to a more dynamic framework that prepares for inevitable breaches. This suggested model, known as MESA 2.0 Security Model, prioritizes swift detection, immediate response, and ongoing resilience, thereby enhancing an organizations ability to promptly identify and neutralize threats, significantly reducing the consequences of security breaches. This study suggests that businesses adopt a forward-thinking and adaptable approach to security management to stay ahead of the ever-changing cyber threat landscape.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# 統合失調症リハビリテーションマネジメントにおける人工知能の応用:体系的文献レビュー

Application of Artificial Intelligence in Schizophrenia Rehabilitation Management: Systematic Literature Review ( http://arxiv.org/abs/2405.10883v1 )

ライセンス: Link先を確認
Hongyi Yang, Fangyuan Chang, Dian Zhu, Muroi Fumie, Zhao Liu, (参考訳) 本稿では,統合失調症患者のリハビリテーション管理における人工知能(AI)の現状と今後の展望を体系的に評価することを目的とする。 我々は2012年から現在までの70の研究を選定し、メンタルヘルスの介入や管理における機械学習、ディープラーニング、強化学習、その他の技術の適用、技術カテゴリ、製品、データタイプに焦点を当てた。 その結果, 症状モニタリング, 再発リスク予測, リハビリテーション治療において, 生態的瞬間的評価, 行動的, 音声的データを分析することでAIを広く活用できることが示唆された。 このレビューでは、ソーシャルメディア分析、真剣なゲーム、リハビリテーションにおける大規模言語モデルなど、AIに基づく新興製品、技術、分析手法の潜在的な課題と今後の方向性について検討する。 本研究は、統合失調症リハビリテーションにおけるAIの適用状況を体系的にレビューし、今後の研究経路について貴重な洞察と勧告を提供する。

This review aims to systematically assess the current status and prospects of artificial intelligence (AI) in the rehabilitation management of patients with schizophrenia and their impact on the rehabilitation process. We selected 70 studies from 2012 to the present, focusing on application, technology categories, products, and data types of machine learning, deep learning, reinforcement learning, and other technologies in mental health interventions and management. The results indicate that AI can be widely used in symptom monitoring, relapse risk prediction, and rehabilitation treatment by analyzing ecological momentary assessment, behavioral, and speech data. This review further explores the potential challenges and future directions of emerging products, technologies, and analytical methods based on AI, such as social media analysis, serious games, and large language models in rehabilitation. In summary, this study systematically reviews the application status of AI in schizophrenia rehabilitation management and provides valuable insights and recommendations for future research paths.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# FA-Depth:高速かつ高精度な自己監督型単眼深度推定に向けて

FA-Depth: Toward Fast and Accurate Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2405.10885v1 )

ライセンス: Link先を確認
Fei Wang, Jun Cheng, (参考訳) 既存の手法の多くは、高い精度でシーンの深さを予測するために複雑なモデルに依存しており、結果としてデプロイメントに適さない推論が遅くなる。 精度と速度のバランスを改善するために,スモールディープスをスモールディープスで設計した。 第二に、推論中に同じ複雑さの条件下での訓練中にSmallDepthの特徴表現能力を高めるために、等価変換モジュール(ETM)を提案する。 第3に,固定されたSmallDepthの場合,各層が異なるコンテキスト情報を知覚し,SmallDepthの左方向への強靭性と照明変化を改善するために,ピラミッドロスを提案する。 第4に、SmallDepthの精度をさらに向上するため、提案した関数近似損失(APX)を用いて、事前訓練されたHQDecv2の知識をSmallDepthに転送した。 大規模実験により,提案した各コンポーネントは,推定中のSmallDepthの複雑さを変化させることなく,SmallDepthの精度を向上することが示された。 コードとモデルはhttps://github.com/fwucas/FA-Depth.comで公開される。

Most existing methods often rely on complex models to predict scene depth with high accuracy, resulting in slow inference that is not conducive to deployment. To better balance precision and speed, we first designed SmallDepth based on sparsity. Second, to enhance the feature representation ability of SmallDepth during training under the condition of equal complexity during inference, we propose an equivalent transformation module(ETM). Third, to improve the ability of each layer in the case of a fixed SmallDepth to perceive different context information and improve the robustness of SmallDepth to the left-right direction and illumination changes, we propose pyramid loss. Fourth, to further improve the accuracy of SmallDepth, we utilized the proposed function approximation loss (APX) to transfer knowledge in the pretrained HQDecv2, obtained by optimizing the previous HQDec to address grid artifacts in some regions, to SmallDepth. Extensive experiments demonstrate that each proposed component improves the precision of SmallDepth without changing the complexity of SmallDepth during inference, and the developed approach achieves state-of-the-art results on KITTI at an inference speed of more than 500 frames per second and with approximately 2 M parameters. The code and models will be publicly available at https://github.com/fwucas/FA-Depth.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# 3モードチューナブルカプラを用いた高性能超伝導2量子ゲート

High-performance superconducting two-qubit gate using a three-mode tunable coupler ( http://arxiv.org/abs/2405.10886v1 )

ライセンス: Link先を確認
Elena Yu. Egorova, Alena S. Kazmina, Ilya A. Simakov, Ilya N. Moskalenko, Nikolay N. Abramov, Daria A. Kalacheva, Viktor B. Lubsanov, Alexey N. Bolgar, Nataliya Maleeva, Ilya S. Besedin, (参考訳) スケーラブルな汎用高性能量子プロセッサの構築は、非常に難しい課題である。 特に、高速な高効率2ビットゲートを実現するという問題は依然として必要である。 本稿では、2つのトランスモンと、ZZインタラクション制御が可能な可変3モードカプラからなるスケーラブルな量子プロセッサのためのユニタリセルを提案する。 パルス長60~nsのネイティブCZゲートを用いて,98%以上の2ビットゲート忠実度を実現し,主にコヒーレンス時間によって制限された。 数値シミュレーションにより、ゲート長を最適化することで、忠実度は99.97%を超えることが示されている。

Building a scalable universal high-performance quantum processor is a formidable challenge. In particular, the problem of realizing fast high-perfomance two-qubit gates of high-fidelity remains needful. Here we propose a unitary cell for a scalable quantum processor consisting of two transmons and a tunable three-mode coupler allowing for a ZZ interaction control. We experimentally demonstrate the native CZ gate with the pulse duration of 60~ns achieving the two-qubit gate fidelity above 98%, limited mostly by qubit coherence time. Numerical simulations show that by optimizing the gate duration the fidelity can be pushed over 99.97%.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# 大型ビジョンモデルに人体をループに埋め込むことによる銀河画像解析のためのVersatile Framework

A Versatile Framework for Analyzing Galaxy Image Data by Implanting Human-in-the-loop on a Large Vision Model ( http://arxiv.org/abs/2405.10890v1 )

ライセンス: Link先を確認
Mingxiang Fu, Yu Song, Jiameng Lv, Liang Cao, Peng Jia, Nan Li, Xiangru Li, Jifeng Liu, A-Li Luo, Bo Qiu, Shiyin Shen, Liangping Tu, Lili Wang, Shoulin Wei, Haifeng Yang, Zhenping Yi, Zhiqiang Zou, (参考訳) 天文学的なデータセットの指数的な成長は、人類が宇宙に関する洞察を得る前例のない機会となる。 しかし、この膨大なデータを効果的に分析することは大きな課題となる。 天文学者はこれに対処するために深層学習技術に目を向けていますが、その方法は特定のトレーニングセットによって制限されています。 そこで本研究では,銀河形態分類,画像復元,物体検出,パラメータ抽出などを含む大規模視覚モデル (LVM) と下流タスク (DST) に基づく,銀河画像の一般解析のためのフレームワークを構築した。 銀河画像の低信号-雑音比と銀河カテゴリの不均衡分布を考慮し,人間の知識を生かしたHuman-in-the-loop (HITL)モジュールを大視的モデルに組み込んだ。 提案フレームワークは, DESIレガシイメージングサーベイにおいて, 上記の銀河画像上の全てのタスクに対して, 顕著な数発の学習能力と汎用的な適応性を示す。 具体的には、1000のデータポイントでトレーニングされたオブジェクト検出では、LVM上のDSTは96.7%、ResNet50とMask R-CNNは93.1%、モルフォロジー分類ではAUC ~0.9、LVMとDSTとHITLはResNet18と比較して1/50のトレーニングセットしか要求しない。 期待されているのは、マルチモーダルデータを同様に統合することで、マルチメッセージ天文学の時代において、多様な領域にまたがるデータセットと共同分析を行う可能性を高めることである。

The exponential growth of astronomical datasets provides an unprecedented opportunity for humans to gain insight into the Universe. However, effectively analyzing this vast amount of data poses a significant challenge. Astronomers are turning to deep learning techniques to address this, but the methods are limited by their specific training sets, leading to considerable duplicate workloads too. Hence, as an example to present how to overcome the issue, we built a framework for general analysis of galaxy images, based on a large vision model (LVM) plus downstream tasks (DST), including galaxy morphological classification, image restoration, object detection, parameter extraction, and more. Considering the low signal-to-noise ratio of galaxy images and the imbalanced distribution of galaxy categories, we have incorporated a Human-in-the-loop (HITL) module into our large vision model, which leverages human knowledge to enhance the reliability and interpretability of processing galaxy images interactively. The proposed framework exhibits notable few-shot learning capabilities and versatile adaptability to all the abovementioned tasks on galaxy images in the DESI legacy imaging surveys. Expressly, for object detection, trained by 1000 data points, our DST upon the LVM achieves an accuracy of 96.7%, while ResNet50 plus Mask R-CNN gives an accuracy of 93.1%; for morphology classification, to obtain AUC ~0.9, LVM plus DST and HITL only requests 1/50 training sets compared to ResNet18. Expectedly, multimodal data can be integrated similarly, which opens up possibilities for conducting joint analyses with datasets spanning diverse domains in the era of multi-message astronomy.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# GitHubプライオリティラベルの優先順位付け

Prioritising GitHub Priority Labels ( http://arxiv.org/abs/2405.10891v1 )

ライセンス: Link先を確認
James Caddy, Christoph Treude, (参考訳) GitHubのコミュニティは、緊急に対処すべきかどうかに基づいて、優先順位付けを割り当てることで、イシューをトリアージする手段としてイシューラベルを使用することが多い。 使用するラベルはリポジトリのコントリビュータによって決定され、GitHubでは標準化されていない。 これにより、研究者とコントリビュータの両方にとって、リポジトリ間の優先度関連推論が困難になる。 以前の研究は、どのようにラベル付けされたか、そしてそれらのラベルがどのような結果をもたらすかに興味を示している。 例えば、いくつかの以前の研究では、クラスタリングモデルと自然言語処理を使用してラベルを分類し、特に優先順位に重点を置いている。 本発表では,優先度に関するラベルを手作業で分類した812のユニークなデータセットを導入する。 このデータセットをどのように利用できるかを示すために、GitHubコントリビュータ向けのツールを作成しました。 当社はデータセットとツールをZenodoで使用するためにリリースしました。オープンソースコミュニティが高優先度の問題により効果的に対処し、他の用途を刺激するのに役立つことを期待しています。

Communities on GitHub often use issue labels as a way of triaging issues by assigning them priority ratings based on how urgently they should be addressed. The labels used are determined by the repository contributors and not standardised by GitHub. This makes it difficult for priority-related reasoning across repositories for both researchers and contributors. Previous work shows interest in how issues are labelled and what the consequences for those labels are. For instance, some previous work has used clustering models and natural language processing to categorise labels without a particular emphasis on priority. With this publication, we introduce a unique data set of 812 manually categorised labels pertaining to priority; normalised and ranked as low-, medium-, or high-priority. To provide an example of how this data set could be used, we have created a tool for GitHub contributors that will create a list of the highest priority issues from the repositories to which they contribute. We have released the data set and the tool for anyone to use on Zenodo because we hope that this will help the open source community address high-priority issues more effectively and inspire other uses.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# 医療領域における大規模言語モデルベンチマークの評価フレームワークCOGNET-MD

COGNET-MD, an evaluation framework and dataset for Large Language Model benchmarks in the medical domain ( http://arxiv.org/abs/2405.10893v1 )

ライセンス: Link先を確認
Dimitrios P. Panagoulias, Persephone Papatheodosiou, Anastasios P. Palamidas, Mattheos Sanoudos, Evridiki Tsoureli-Nikita, Maria Virvou, George A. Tsihrintzis, (参考訳) 大規模言語モデル(LLMs)は、急速に進化している最先端の人工知能(AI)技術であり、医師を支援したり、より高度な複雑な実装で医師のワークフローをシミュレートすることで医療診断を支援することを約束している。 本稿では,医療領域におけるLCM評価のための新しいベンチマークとなる認知ネットワーク評価ツールキット(COGNET-MD)について概説する。 具体的には、医学テキストの解釈におけるLCMの能力を評価するのが困難であるスコアフレームを提案する。 提案するフレームワークには、Multiple Choice Quizzes (MCQ) のデータベースが付属している。 現在の医療動向との整合性を確保し、安全性、有用性、適用性を高めるため、これらのMCQは様々な医療分野の専門家と共同で構築され、様々な難易度が特徴である。 データベースの現在の(最初の)バージョンは、精神医学、歯科医学、免疫学、皮膚学、内分泌学の医療ドメインを含んでいるが、継続して拡張され、追加の医療ドメインを含むように拡張される。

Large Language Models (LLMs) constitute a breakthrough state-of-the-art Artificial Intelligence (AI) technology which is rapidly evolving and promises to aid in medical diagnosis either by assisting doctors or by simulating a doctor's workflow in more advanced and complex implementations. In this technical paper, we outline Cognitive Network Evaluation Toolkit for Medical Domains (COGNET-MD), which constitutes a novel benchmark for LLM evaluation in the medical domain. Specifically, we propose a scoring-framework with increased difficulty to assess the ability of LLMs in interpreting medical text. The proposed framework is accompanied with a database of Multiple Choice Quizzes (MCQs). To ensure alignment with current medical trends and enhance safety, usefulness, and applicability, these MCQs have been constructed in collaboration with several associated medical experts in various medical domains and are characterized by varying degrees of difficulty. The current (first) version of the database includes the medical domains of Psychiatry, Dentistry, Pulmonology, Dermatology and Endocrinology, but it will be continuously extended and expanded to include additional medical domains.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# ZX計算は有限次元ヒルベルト空間に完全である

ZX-calculus is Complete for Finite-Dimensional Hilbert Spaces ( http://arxiv.org/abs/2405.10896v1 )

ライセンス: Link先を確認
Boldizsár Poór, Razin A. Shaikh, Quanlong Wang, (参考訳) ZX-計算(ZX-calculus)は、量子コンピューティングと量子情報理論を推論するためのグラフィカル言語である。 完全なグラフィカル言語として、基礎となる形式主義の方程式を導出するのに十分な公理の集合を組み込む。 ZX-計算の完全性は、キュービットと素次元キューディットのクリフォード断片に対して確立されているが、2レベル系以外の普遍完全性は、これまで証明されていない。 本稿では、混合次元Z-スパイダーとqudit X-スパイダーのみをジェネレータとして組み込んだ有限次元ZX-計算の完全性を確立することの証明を示す。 我々のアプローチは、他のグラフィカル言語である有限次元ZW-計算の完全性に基づいており、これら2つの計算間の直接変換が可能である。 完全性を証明することによって、ZX-計算は、量子計算だけでなく、有限次元量子論の様々な分野にも応用できるツールとして確立された基礎を築いた。

The ZX-calculus is a graphical language for reasoning about quantum computing and quantum information theory. As a complete graphical language, it incorporates a set of axioms rich enough to derive any equation of the underlying formalism. While completeness of the ZX-calculus has been established for qubits and the Clifford fragment of prime-dimensional qudits, universal completeness beyond two-level systems has remained unproven until now. In this paper, we present a proof establishing the completeness of finite-dimensional ZX-calculus, incorporating only the mixed-dimensional Z-spider and the qudit X-spider as generators. Our approach builds on the completeness of another graphical language, the finite-dimensional ZW-calculus, with direct translations between these two calculi. By proving its completeness, we lay a solid foundation for the ZX-calculus as a versatile tool not only for quantum computation but also for various fields within finite-dimensional quantum theory.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# 回帰と不確かさの定量化に基づく効率的な線探索法

Efficient Line Search Method Based on Regression and Uncertainty Quantification ( http://arxiv.org/abs/2405.10897v1 )

ライセンス: Link先を確認
Sören Laue, Tomislav Prusina, (参考訳) 制約のない最適化問題は典型的には反復法を用いて解決されるが、これは各反復において最適なステップ長を決定するために行探索技術に依存することが多い。 本稿では,新しい線探索手法を提案する。 伝統的な行探索法は、最適なステップの長さを決定することを目的としており、しばしば探索プロセスから貴重なデータを破棄し、ステップの長さ間隔の精細化に焦点をあてる。 本稿では,関数値や勾配といった利用可能なすべてのデータポイントを利用して,より効率的なベイズ最適化手法を提案する。 この新しいアプローチは、より効果的に検索スペースを探索し、より良いソリューション品質をもたらす。 既存のフレームワークの実装や統合も簡単です。 挑戦的なCUTEstテストセットでテストした結果、既存の最先端メソッドよりも優れたパフォーマンスを示し、同等のリソース使用量で最適な問題に対処する。

Unconstrained optimization problems are typically solved using iterative methods, which often depend on line search techniques to determine optimal step lengths in each iteration. This paper introduces a novel line search approach. Traditional line search methods, aimed at determining optimal step lengths, often discard valuable data from the search process and focus on refining step length intervals. This paper proposes a more efficient method using Bayesian optimization, which utilizes all available data points, i.e., function values and gradients, to guide the search towards a potential global minimum. This new approach more effectively explores the search space, leading to better solution quality. It is also easy to implement and integrate into existing frameworks. Tested on the challenging CUTEst test set, it demonstrates superior performance compared to existing state-of-the-art methods, solving more problems to optimality with equivalent resource usage.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# 凝縮物質におけるウイットネスの絡み合いと量子相関

Witnessing Entanglement and Quantum Correlations in Condensed Matter: A Review ( http://arxiv.org/abs/2405.10899v1 )

ライセンス: Link先を確認
Pontus Laurell, Allen Scheie, Elbio Dagotto, D. Alan Tennant, (参考訳) 材料中の絡み合いや量子相関の検出と証明は、基本的かつ極端に重要であり、近年は顕著な進歩を遂げている。 これは、量子多体現象の基礎科学の理解だけでなく、新しい技術に適したシステムの同定にも影響を及ぼす。 量子情報理論の文脈において、測定と絡み合いとコヒーレンスを接続する凝縮物に適したフレームワークが開発されている。 これらは絡み合いの証人や量子相関測度の形をとる。 これらの量に関する基礎理論、凝縮物質実験技術との関係、および実際の材料への応用について概説する。 さらに、egプロトコルにおけるそれらの使用法、目撃者や測定者の相対的な利点とデメリット、例えば相関電子、絡み合い力学、絡み合った分光プローブの今後の展望を示す。 この新たな研究の学際的な性質と、基礎から応用へアクセスしやすく実践的な治療を提供することによる、かなり進行中の進歩について考察する。 特に、サセプティビリティや分光技術など、集団計測に利用できる量に重点を置いている。 これには、磁化率の証人、一対角、共起、2対角、二点量子不協和、量子フィッシャー情報のような量子コヒーレンス測度が含まれる。

The detection and certification of entanglement and quantum correlations in materials is of fundamental and far-reaching importance, and has seen significant recent progress. It impacts both our understanding of the basic science of quantum many-body phenomena as well as the identification of systems suitable for novel technologies. Frameworks suitable to condensed matter that connect measurements to entanglement and coherence have been developed in the context of quantum information theory. These take the form of entanglement witnesses and quantum correlation measures. The underlying theory of these quantities, their relation to condensed matter experimental techniques, and their application to real materials are comprehensively reviewed. In addition, their usage in e.g. protocols, the relative advantages and disadvantages of witnesses and measures, and future prospects in, e.g., correlated electrons, entanglement dynamics, and entangled spectroscopic probes, are presented. Consideration is given to the interdisciplinary nature of this emerging research and substantial ongoing progress by providing an accessible and practical treatment from fundamentals to application. Particular emphasis is placed on quantities accessible to collective measurements, including by susceptibility and spectroscopic techniques. This includes the magnetic susceptibility witness, one-tangle, concurrence and two-tangle, two-site quantum discord, and quantum coherence measures such as the quantum Fisher information.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# 開発者はセキュリティに関する懸念をどこで認めるのか?

Where do developers admit their security-related concerns? ( http://arxiv.org/abs/2405.10902v1 )

ライセンス: Link先を確認
Moritz Mock, Thomas Forrer, Barbara Russo, (参考訳) 開発者はコードのセキュリティ上の懸念を文書化するために異なる手段を使用する。 これらの機会がすべてあるため、情報はどこに保管されているのかを忘れたり、他の人々はそれを認識していないかもしれない。 本研究では,大規模で実世界のオープンソースの4つのプロジェクトから,開発者がセキュリティ上の懸念を報告した場所を理解するために,さまざまなソースのコードドキュメンテーションを分析した。 特に、ソースコードコメント、コミットメッセージ、イシュートラッカから取られた2.559のインスタンスを手動で検査しました。 全体として、開発者はソースコードコメントやイシュートラッカでセキュリティ上の懸念を文書化するのを好む。 また、コメントが修正されない期間が長ければ長いほど、修正されない可能性が高くなることもわかりました。 したがって、開発者間の意識を高めるために、セキュリティ問題を示すコメントの導入や削除について、パイプラインを実装しました。

Developers use different means to document the security concerns of their code. Because of all of these opportunities, they may forget where the information is stored, or others may not be aware of it, and leave it unmaintained for so long that it becomes obsolete, if not useless. In this work, we analyzed different sources of code documentation from four large-scale, real-world, open-source projects in an industrial setting to understand where developers report their security concerns. In particular, we manually inspected 2.559 instances taken from source code comments, commit messages, and issue trackers. Overall, we found that developers prefer to document security concerns in source code comments and issue trackers. We also found that the longer the comments stay unfixed, the more likely they remain unfixed. Thus, to create awareness among developers, we implemented a pipeline to remind them about the introduction or removal of comments pointing to a security problem.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# プライバシーと監視を広める - スマートホームカメラのシナリオワークブックで相互接続された価値を回避

Broadening Privacy and Surveillance: Eliciting Interconnected Values with a Scenarios Workbook on Smart Home Cameras ( http://arxiv.org/abs/2405.10904v1 )

ライセンス: Link先を確認
Richmond Y. Wong, Jason Caleb Valdez, Ashten Alexander, Ariel Chiang, Olivia Quesada, James Pierce, (参考訳) 投機シナリオのデザインワークブックを,14人の参加者による評価評価活動として使用しています。 ワークブックには、監視と不均一な電力関係を含むスマートホームカメラ技術を使ったユースケースシナリオが描かれている。 このシナリオは最初、親子、地主・テナント、居住者・家庭労働者の3つの社会的関係の中でプライバシーと監視のシナリオを探求するために、研究者によって設計された。 シナリオを参加者による価値評価活動の一部として活用すると,プライバシーや監視,自律性や機関,身体的安全,財産権,信頼と説明責任,公正性といった,相互に結びついた社会的価値の集合を反映することがわかった。 この論文は、スマートホームにおける倫理的問題に関する今後の研究は、より広範な社会的価値観(プライバシとの整合性や緊張が強い)と相互に結びついて、プライバシーを概念化すべきであり、プライバシ以外のユーザとの調査を行う上での考慮事項を反映していることを示唆している。

We use a design workbook of speculative scenarios as a values elicitation activity with 14 participants. The workbook depicts use case scenarios with smart home camera technologies that involve surveillance and uneven power relations. The scenarios were initially designed by the researchers to explore scenarios of privacy and surveillance within three social relationships involving "primary" and "non-primary" users: Parents-Children, Landlords-Tenants, and Residents-Domestic Workers. When the scenarios were utilized as part of a values elicitation activity with participants, we found that they reflected on a broader set of interconnected social values beyond privacy and surveillance, including autonomy and agency, physical safety, property rights, trust and accountability, and fairness. The paper suggests that future research about ethical issues in smart homes should conceptualize privacy as interconnected with a broader set of social values (which can align or be in tension with privacy), and reflects on considerations for doing research with non-primary users.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# POSTER: GNSS受信機セキュリティのためのネットワークベースのRTKをテストする

POSTER: Testing network-based RTK for GNSS receiver security ( http://arxiv.org/abs/2405.10906v1 )

ライセンス: Link先を確認
Marco Spanghero, Panos Papadimitratos, (参考訳) Global Navigation Satellite Systems (GNSS) は正確な位置を提供するが、Real Time Kinematics (RTK) は固定局を利用するモバイル受信機(終端ローバー)が位置ナビゲーションとタイミング(PNT)ソリューションのエラーを修正できるようにする。 これにより、マルチパス効果、電離圏誤差、観察バイアスの補正が可能になり、消費者受信機はセンチメートルレベルの精度を達成できる。 訂正ストリームのネットワーク分布は、共通のセキュアなネットワークの慣行によって保護されるが、参照局は、GNSSのスプーフィングやジャムによって攻撃される。 この研究は (i)RTK基準局スプーフィングがローバーのPNT溶液品質および品質に及ぼす影響 (II)RTKインフラストラクチャの強化に向けた潜在的な対策。

Global Navigation Satellite Systems (GNSS) provide precise location, while Real Time Kinematics (RTK) allow mobile receivers (termed rovers), leveraging fixed stations, to correct errors in their Position Navigation and Timing (PNT) solution. This allows compensating for multi-path effects, ionospheric errors, and observation biases, enabling consumer receivers to achieve centimeter-level accuracy. While network distribution of correction streams can be protected with common secure networking practices, the reference stations can still be attacked by GNSS spoofing or jamming. This work investigates (i) the effect RTK reference station spoofing has on the rover's PNT solution quality and (ii) the potential countermeasures towards hardening the RTK infrastructure.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# 医用画像分割のためのブラックボックス適応

Blackbox Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2405.10913v1 )

ライセンス: Link先を確認
Jay N. Paranjape, Shameema Sikder, S. Swaroop Vedula, Vishal M. Patel, (参考訳) 近年,画像分割のための様々な基礎モデルが提案されている。 一般的なコンピュータビジョンタスクに対応する大量のデータに基づいてトレーニングされるモデルもある。 したがって、これらのモデルは医療データではうまく機能しない。 医用画像セグメンテーションの基礎モデルをパラメータ効率で微調整する試みが文献でいくつか行われている。 しかしながら、これらのアプローチはモデルの全てのパラメータが適応可能であると仮定する。 しかし多くの場合、これらのモデルはAPIやブラックボックスとしてリリースされ、モデルパラメータやデータへのアクセスは制限されない。 さらに、微調整には大量の計算が必要であるため、下流のタスクでは利用できない可能性がある。 同時に、プライバシー上の理由から、医療データをサードパーティのエージェントと共有することはできません。 これらの課題に対処するため,医療画像分割のためのブラックボックス適応手法であるBAPSを考案した。 BAPSには2つのコンポーネントがあります。 一 画像及びプロンプトを与えられた視覚的プロンプトを生成する画像プロンプトデコーダ(IPデコーダ)モジュール (II)基盤モデルによるバックプロパゲートを必要とせずにIPデコーダの更新に使用されるSPSA-GCと呼ばれるゼロオーダー最適化(ZOO)手法。 したがって,本手法は基礎モデルの重みや勾配に関する知識を必要としない。 BAPSを4つの異なるモードでテストし,提案手法が元のモデルの性能を約4%向上できることを示す。

In recent years, various large foundation models have been proposed for image segmentation. There models are often trained on large amounts of data corresponding to general computer vision tasks. Hence, these models do not perform well on medical data. There have been some attempts in the literature to perform parameter-efficient finetuning of such foundation models for medical image segmentation. However, these approaches assume that all the parameters of the model are available for adaptation. But, in many cases, these models are released as APIs or blackboxes, with no or limited access to the model parameters and data. In addition, finetuning methods also require a significant amount of compute, which may not be available for the downstream task. At the same time, medical data can't be shared with third-party agents for finetuning due to privacy reasons. To tackle these challenges, we pioneer a blackbox adaptation technique for prompted medical image segmentation, called BAPS. BAPS has two components - (i) An Image-Prompt decoder (IP decoder) module that generates visual prompts given an image and a prompt, and (ii) A Zero Order Optimization (ZOO) Method, called SPSA-GC that is used to update the IP decoder without the need for backpropagating through the foundation model. Thus, our method does not require any knowledge about the foundation model's weights or gradients. We test BAPS on four different modalities and show that our method can improve the original model's performance by around 4%.
翻訳日:2024-05-20 15:34:03 公開日:2024-05-17
# GenToC: 製品属性値識別のための部分ラベルデータを活用する

GenToC: Leveraging Partially-Labeled Data for Product Attribute-Value Identification ( http://arxiv.org/abs/2405.10918v1 )

ライセンス: Link先を確認
D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal, (参考訳) 電子商取引分野では、商品リスト(例えばブランド:アップル)から属性値対を正確に抽出することが、検索とレコメンデーションシステムの強化に不可欠である。 この抽出プロセスの自動化は、製品カテゴリとその属性が多様であり、広範囲で正確に注釈付けされたトレーニングデータセットの欠如と、Eコマースプラットフォームのリアルタイムニーズを満たすための低レイテンシの要求が混ざり合っているため、困難である。 これらの課題に対処するために、製品タイトルから属性値対を抽出する新しい2段階モデルであるGenToCを紹介する。 GenToCは、部分的にラベル付けされたデータでトレーニングし、不完全な属性値ペアを活用し、完全なアノテーション付きデータセットの必要性を回避するように設計されている。 さらに,GenToCが学習データセットを段階的に洗練・拡張できるブートストラップ方式を導入する。 この強化により、通常は高速だが部分的にラベル付けされたデータを扱う能力の点でGenToCよりも本質的に低い他のニューラルネットワークモデルのトレーニングで利用可能なデータ品質が大幅に向上する。 トレーニング用に豊富なデータセットを提供することで、GenToCはこれらの代替モデルのパフォーマンスを大幅に向上し、リアルタイムデプロイメントにより適している。 我々は,GenToCが限定されたラベル付きデータから学習し,より効率的なモデルのトレーニングに寄与するユニークな能力を強調した。 GenToCはインド最大のB2B電子商取引プラットフォームであるIndiaMART.comに統合され、既存の配備システムに対するリコールで21.1%の大幅な増加を達成した。

In the e-commerce domain, the accurate extraction of attribute-value pairs from product listings (e.g., Brand: Apple) is crucial for enhancing search and recommendation systems. The automation of this extraction process is challenging due to the vast diversity of product categories and their respective attributes, compounded by the lack of extensive, accurately annotated training datasets and the demand for low latency to meet the real-time needs of e-commerce platforms. To address these challenges, we introduce GenToC, a novel two-stage model for extracting attribute-value pairs from product titles. GenToC is designed to train with partially-labeled data, leveraging incomplete attribute-value pairs and obviating the need for a fully annotated dataset. Moreover, we introduce a bootstrapping method that enables GenToC to progressively refine and expand its training dataset. This enhancement substantially improves the quality of data available for training other neural network models that are typically faster but are inherently less capable than GenToC in terms of their capacity to handle partially-labeled data. By supplying an enriched dataset for training, GenToC significantly advances the performance of these alternative models, making them more suitable for real-time deployment. Our results highlight the unique capability of GenToC to learn from a limited set of labeled data and to contribute to the training of more efficient models, marking a significant leap forward in the automated extraction of attribute-value pairs from product titles. GenToC has been successfully integrated into India's largest B2B e-commerce platform, IndiaMART.com, achieving a significant increase of 21.1% in recall over the existing deployed system while maintaining a high precision of 89.5% in this challenging task.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 被覆検証設計によるFew-Pixelロバスト性検証の高速化

Boosting Few-Pixel Robustness Verification via Covering Verification Designs ( http://arxiv.org/abs/2405.10924v1 )

ライセンス: Link先を確認
Yuval Shapira, Naor Wiesel, Shahar Shabelman, Dana Drachsler-Cohen, (参考訳) ニューラルネットワークの信頼性を高めるためには、局所的な堅牢性を証明することが不可欠である。 多くの検証者は$L_\infty$$\epsilon$-ballsでロバスト性を証明するが、$L_0$$\epsilon$-ballsでロバスト性を検証する作業はほとんど行わず、少数のピクセル攻撃に対してロバスト性を取得する。 この検証は、摂動に対するピクセルの空間が離散的で指数的な大きさであるため、組合せ的挑戦をもたらす。 以前の研究は、$L_\infty$近傍を定義するための集合を特定するために設計をカバーすることに依存しており、もし証明されたロバストであれば、$L_0$$\epsilon$-ballがロバストであることを暗示している。 しかし、検証対象の地区数は依然として非常に多く、分析時間も高い。 有効だが解析非互換な被覆を$L_0$ロバスト性検証に適合させる組合せ設計の検証設計を提案する。 問題となるのは、包括的検証設計の計算には高時間とメモリオーバーヘッドが伴うことだ。 提案するCoVerDは,ブロックサイズ分布を予測せずに,異なる候補被覆を選択する,$L_0$のロバスト性検証器である。 この予想は、この分布の平均と分散に対する閉形式表現を提供する定理に依存する。 CoVerDは、メモリ消費を最小限に抑え、分析を並列化しながら、選択したカバレッジ検証設計をオンザフライで構築する。 実験の結果、CoVerDは以前の作業と比べて平均5.1倍の検証時間を短縮し、より大きな$L_0$$\epsilon$-ballsにスケールすることがわかった。

Proving local robustness is crucial to increase the reliability of neural networks. While many verifiers prove robustness in $L_\infty$ $\epsilon$-balls, very little work deals with robustness verification in $L_0$ $\epsilon$-balls, capturing robustness to few pixel attacks. This verification introduces a combinatorial challenge, because the space of pixels to perturb is discrete and of exponential size. A previous work relies on covering designs to identify sets for defining $L_\infty$ neighborhoods, which if proven robust imply that the $L_0$ $\epsilon$-ball is robust. However, the number of neighborhoods to verify remains very high, leading to a high analysis time. We propose covering verification designs, a combinatorial design that tailors effective but analysis-incompatible coverings to $L_0$ robustness verification. The challenge is that computing a covering verification design introduces a high time and memory overhead, which is intensified in our setting, where multiple candidate coverings are required to identify how to reduce the overall analysis time. We introduce CoVerD, an $L_0$ robustness verifier that selects between different candidate coverings without constructing them, but by predicting their block size distribution. This prediction relies on a theorem providing closed-form expressions for the mean and variance of this distribution. CoVerD constructs the chosen covering verification design on-the-fly, while keeping the memory consumption minimal and enabling to parallelize the analysis. The experimental results show that CoVerD reduces the verification time on average by up to 5.1x compared to prior work and that it scales to larger $L_0$ $\epsilon$-balls.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 自然言語処理による補助的共変体を含む部分観察された共同設立者のための高次元多重計算(HDMI)

High-dimensional multiple imputation (HDMI) for partially observed confounders including natural language processing-derived auxiliary covariates ( http://arxiv.org/abs/2405.10925v1 )

ライセンス: Link先を確認
Janick Weberpals, Pamela A. Shaw, Kueiyu Joshua Lin, Richard Wyss, Joseph M Plasek, Li Zhou, Kerry Ngan, Thomas DeRamus, Sudha R. Raman, Bradley G. Hammill, Hana Lee, Sengwee Toh, John G. Connolly, Kimberly J. Dandreo, Fang Tian, Wei Liu, Jie Li, José J. Hernández-Muñoz, Sebastian Schneeweiss, Rishi J. Desai, (参考訳) 補助共変量(AC)を含めることで、多重計算(MI)モデルを改善することができるが、高次元データにおけるそれらの性能はよく理解されていない。 我々は,構造化自然言語処理(NLP)を用いた高次元MI(HDMI)手法を,部分的に観察された共同設立者との研究で開発・比較することを目的とした。 オピオイドと非ステロイド性抗炎症薬(NSAID)開始剤(X)と血清クレアチニン(Z2)と経時的腎傷害を併用したプラスミドシミュレーションを行った。 結果,X,Z2,心房細動(U),その他13名の共同設立者(Z1)を含む100頭のコホートを無効治療効果で模擬した。 その後,Z2とUの関数としてのZ2測定の50%にMZ2の欠如を課し,構造的特徴およびNLP特徴を用いたHDMI候補ACを作成した。 我々は、Uが観測されていないシナリオを、すべてのAC候補集合から除外して模倣した。 LASSOを用いて,MI用Z2,MZ2,U用Uに関連するHDMI共変体をデータ適応的に選択した。 治療効果はMIデータセットの適合性スコアマッチングに基づいて推定され,Z1のみを用いたベースライン計算と完全ケース解析に対してHDMIアプローチをベンチマークした。 クレームデータを用いたHDMIが最も低いバイアス(0.072)を示した。 クレームと文の埋め込みを組み合わせることで、ルート平均二乗エラー(0.173)とカバレッジ(94%)の効率が改善された。 NLP由来のAC単独では基線MIよりも優れた性能は得られなかった。 HDMIアプローチは、部分的に観察された共同設立者による研究のバイアスを減少させる可能性がある。

Multiple imputation (MI) models can be improved by including auxiliary covariates (AC), but their performance in high-dimensional data is not well understood. We aimed to develop and compare high-dimensional MI (HDMI) approaches using structured and natural language processing (NLP)-derived AC in studies with partially observed confounders. We conducted a plasmode simulation study using data from opioid vs. non-steroidal anti-inflammatory drug (NSAID) initiators (X) with observed serum creatinine labs (Z2) and time-to-acute kidney injury as outcome. We simulated 100 cohorts with a null treatment effect, including X, Z2, atrial fibrillation (U), and 13 other investigator-derived confounders (Z1) in the outcome generation. We then imposed missingness (MZ2) on 50% of Z2 measurements as a function of Z2 and U and created different HDMI candidate AC using structured and NLP-derived features. We mimicked scenarios where U was unobserved by omitting it from all AC candidate sets. Using LASSO, we data-adaptively selected HDMI covariates associated with Z2 and MZ2 for MI, and with U to include in propensity score models. The treatment effect was estimated following propensity score matching in MI datasets and we benchmarked HDMI approaches against a baseline imputation and complete case analysis with Z1 only. HDMI using claims data showed the lowest bias (0.072). Combining claims and sentence embeddings led to an improvement in the efficiency displaying the lowest root-mean-squared-error (0.173) and coverage (94%). NLP-derived AC alone did not perform better than baseline MI. HDMI approaches may decrease bias in studies with partially observed confounders where missingness depends on unobserved factors.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# ロスランドスケープにおけるデジェネリアシーを用いた機械的解釈性

Using Degeneracy in the Loss Landscape for Mechanistic Interpretability ( http://arxiv.org/abs/2405.10927v1 )

ライセンス: Link先を確認
Lucius Bushnaq, Jake Mendel, Stefan Heimersheim, Dan Braun, Nicholas Goldowsky-Dill, Kaarel Hänni, Cindy Wu, Marius Hobbhahn, (参考訳) 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークによって実装されたアルゴリズムを、その重みとアクティベーションを研究することによってリバースエンジニアリングすることを目的としている。 逆エンジニアリングニューラルネットワークの障害は、ネットワーク内の多くのパラメータが、ネットワークによって実装されている計算に関与していないことである。 これらの縮退パラメータは内部構造を難読化することができる。 特異学習理論は、ニューラルネットワークのパラメータ化がより退化に偏っていること、そしてより退化性のあるパラメータ化がさらに一般化される可能性が高いことを教えてくれる。 ネットワークパラメータをデジェネレーションする3つの方法として,レイヤ内のアクティベーション間の線形依存,レイヤに渡される勾配間の線形依存,データポイントの同じサブセットに発火するReLUを同定する。 また、モジュラーネットワークはより退化しやすいというヒューリスティックな議論も提示し、この議論に基づいてネットワーク内のモジュールを識別する指標を開発する。 縮退を利用した再パラメータ化に不変な方法でニューラルネットワークを表現できるなら、この表現はより解釈可能である可能性が高く、そのような表現がスペーサー相互作用を持つ可能性が示唆されている。 本稿では,アクティベーションやジャコビアンの線形依存から退化に不変な表現を得るためのトラクタブル手法であるInteraction Basisを紹介する。

Mechanistic Interpretability aims to reverse engineer the algorithms implemented by neural networks by studying their weights and activations. An obstacle to reverse engineering neural networks is that many of the parameters inside a network are not involved in the computation being implemented by the network. These degenerate parameters may obfuscate internal structure. Singular learning theory teaches us that neural network parameterizations are biased towards being more degenerate, and parameterizations with more degeneracy are likely to generalize further. We identify 3 ways that network parameters can be degenerate: linear dependence between activations in a layer; linear dependence between gradients passed back to a layer; ReLUs which fire on the same subset of datapoints. We also present a heuristic argument that modular networks are likely to be more degenerate, and we develop a metric for identifying modules in a network that is based on this argument. We propose that if we can represent a neural network in a way that is invariant to reparameterizations that exploit the degeneracies, then this representation is likely to be more interpretable, and we provide some evidence that such a representation is likely to have sparser interactions. We introduce the Interaction Basis, a tractable technique to obtain a representation that is invariant to degeneracies from linear dependence of activations or Jacobians.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 局所相互作用ベイズ:ニューラルネットワークにおける計算関連・疎干渉特徴の同定

The Local Interaction Basis: Identifying Computationally-Relevant and Sparsely Interacting Features in Neural Networks ( http://arxiv.org/abs/2405.10928v1 )

ライセンス: Link先を確認
Lucius Bushnaq, Stefan Heimersheim Nicholas Goldowsky-Dill, Dan Braun, Jake Mendel, Kaarel Hänni, Avery Griffin, Jörn Stöhler, Magdalena Wache, Marius Hobbhahn, (参考訳) 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークの内部計算をリバースエンジニアリングすることで、その振る舞いを理解することを目的としている。 しかし、現在の手法では、演算機能へのアクティベーションの分解が欠如しているため、ニューラルネットワークのアクティベーションの明確な解釈を見つけるのに苦労している。 個々のニューロンやモデルコンポーネントは、明確に異なる特徴や機能に対応しない。 本稿では,ネットワークの活性化を新たな基盤であるLIB(Local Interaction Basis)に変換することによって,この制限を克服することを目的とした,新たな解釈可能性手法を提案する。 LIBは、無関係なアクティベーションと相互作用を取り除き、計算的特徴を識別することを目的としている。 本手法は, アクティベーションの非関係な方向を減少させ, 隣り合う層間のヤコビ行列の特異ベクトルと基底を一致させる。 また、下流計算の重要性に基づいて機能をスケールし、モデル内のすべての計算関連特徴と相互作用を示す相互作用グラフを生成する。 モジュール追加およびCIFAR-10モデルに対するLIBの有効性を評価し,主成分分析と比較して,より計算的に関連性の高い特徴を同定した。 しかし、LIBは言語モデルに適用した場合、解釈可能性や相互作用の空間性を大幅に改善するものではない。 我々は、LIBはニューラルネットワークを解析するための有望な理論駆動型アプローチであるが、現在の形式では、大きな言語モデルには適用できないと結論付けた。

Mechanistic interpretability aims to understand the behavior of neural networks by reverse-engineering their internal computations. However, current methods struggle to find clear interpretations of neural network activations because a decomposition of activations into computational features is missing. Individual neurons or model components do not cleanly correspond to distinct features or functions. We present a novel interpretability method that aims to overcome this limitation by transforming the activations of the network into a new basis - the Local Interaction Basis (LIB). LIB aims to identify computational features by removing irrelevant activations and interactions. Our method drops irrelevant activation directions and aligns the basis with the singular vectors of the Jacobian matrix between adjacent layers. It also scales features based on their importance for downstream computation, producing an interaction graph that shows all computationally-relevant features and interactions in a model. We evaluate the effectiveness of LIB on modular addition and CIFAR-10 models, finding that it identifies more computationally-relevant features that interact more sparsely, compared to principal component analysis. However, LIB does not yield substantial improvements in interpretability or interaction sparsity when applied to language models. We conclude that LIB is a promising theory-driven approach for analyzing neural networks, but in its current form is not applicable to large language models.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 誤分類ペナルティを用いた仮説検証のためのサブモジュール情報選択

Submodular Information Selection for Hypothesis Testing with Misclassification Penalties ( http://arxiv.org/abs/2405.10930v1 )

ライセンス: Link先を確認
Jayanth Bhargav, Mahsa Ghasemi, Shreyas Sundaram, (参考訳) 本研究では,仮説テスト/分類タスクにおいて,仮説から得られた有限観測サンプルに基づいて,仮説の集合から世界の真の状態を特定することを目的とする情報ソースの最適サブセットを選択することの問題点を考察する。 学習性能を特徴付けるために,異なる誤分類誤りに対する一様でない処理を可能にする誤分類ペナルティフレームワークを提案する。 集中型ベイズ学習環境では、部分集合選択問題の2つの変種について研究する。 一 真仮説の誤分類の最大刑罰が有界であることを保証するため、最小限の費用情報を選択すること。 二 限られた予算で設定した最適情報を選択し、真仮説の誤分類の最大刑罰を最小化する。 軽度の仮定の下では、これらの組合せ最適化問題の目的(あるいは制約)が弱(あるいは近似)な部分モジュラーであることが証明され、グリードアルゴリズムの高確率性能保証が確立される。 さらに,誤分類の合計値に基づく情報集合選択のための代替指標を提案する。 我々は,この指標が準モジュラであることを示すとともに,両情報集合選択問題に対するグリーディアルゴリズムのほぼ最適保証を確立する。 最後に, ランダムに生成した複数のインスタンスに対して, 理論的結果を検証する数値シミュレーションを提案する。

We consider the problem of selecting an optimal subset of information sources for a hypothesis testing/classification task where the goal is to identify the true state of the world from a finite set of hypotheses, based on finite observation samples from the sources. In order to characterize the learning performance, we propose a misclassification penalty framework, which enables non-uniform treatment of different misclassification errors. In a centralized Bayesian learning setting, we study two variants of the subset selection problem: (i) selecting a minimum cost information set to ensure that the maximum penalty of misclassifying the true hypothesis remains bounded and (ii) selecting an optimal information set under a limited budget to minimize the maximum penalty of misclassifying the true hypothesis. Under mild assumptions, we prove that the objective (or constraints) of these combinatorial optimization problems are weak (or approximate) submodular, and establish high-probability performance guarantees for greedy algorithms. Further, we propose an alternate metric for information set selection which is based on the total penalty of misclassification. We prove that this metric is submodular and establish near-optimal guarantees for the greedy algorithms for both the information set selection problems. Finally, we present numerical simulations to validate our theoretical results over several randomly generated instances.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 低次量子オブジェクトの学習

Learning low-degree quantum objects ( http://arxiv.org/abs/2405.10933v1 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Arkopal Dutt, Francisco Escudero Gutiérrez, Carlos Palazuelos, (参考訳) 低次量子オブジェクトを、$\ell_2$-distanceで$\varepsilon$-errorまで学習する問題を考察する。 以下の結果を示す。 (i)$ unknown $n$-qubit degree-$d$(Pauliベース)量子チャネルとユニタリは$O(1/\varepsilon^d)$クエリ($n$に依存しない)$$で学習することができる。 (ii)$ polynomials $p:\{-1,1\}^n\rightarrow [-1,1]$ arising from $d$-query quantum algorithm can be classicly learn from $O((1/\varepsilon)^d\cdot \log n)$ many random examples $(x,p(x))$ (これは$d=O(\log n)$) and $(iii)$ degree-$d$ polynomials $p:\{-1,1\}^n\to [-1,1]$$は$O(1/\varepsilon^d)$クエリから$pをブロックする量子ユニタリな$U_p$へのクエリから学べる。 我々の主な技術的貢献は、量子チャネルと完全に有界な−ポリノミアルに対する新しいボネンブラスト・ヒルの不等式である。

We consider the problem of learning low-degree quantum objects up to $\varepsilon$-error in $\ell_2$-distance. We show the following results: $(i)$ unknown $n$-qubit degree-$d$ (in the Pauli basis) quantum channels and unitaries can be learned using $O(1/\varepsilon^d)$ queries (independent of $n$), $(ii)$ polynomials $p:\{-1,1\}^n\rightarrow [-1,1]$ arising from $d$-query quantum algorithms can be classically learned from $O((1/\varepsilon)^d\cdot \log n)$ many random examples $(x,p(x))$ (which implies learnability even for $d=O(\log n)$), and $(iii)$ degree-$d$ polynomials $p:\{-1,1\}^n\to [-1,1]$ can be learned through $O(1/\varepsilon^d)$ queries to a quantum unitary $U_p$ that block-encodes $p$. Our main technical contributions are new Bohnenblust-Hille inequalities for quantum channels and completely bounded~polynomials.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# ガイド状変形を先行したマニピュレーションガーメントの再建

Reconstruction of Manipulated Garment with Guided Deformation Prior ( http://arxiv.org/abs/2405.10934v1 )

ライセンス: Link先を確認
Ren Li, Corentin Dumery, Zhantao Deng, Pascal Fua, (参考訳) 衣服の形状をモデル化することは、多くの注目を集めているが、既存のアプローチでは、衣服が誰かによって着用されることを前提としており、それが想定できる形状の範囲を制限している。 本研究は,衣服が着用される代わりに操作されている場合の形状回復について論じる。 この目的のために,布地モデルに暗黙の縫製パターン(ISP)モデルを適用し,これらの形状を表すために拡散ベースの変形を加えることで拡張する。 衣服の折りたたみ時に得られる不完全な3D点雲から3Dの衣服形状を復元するために,その点を事前学習したUV空間にマッピングし,部分的なUVマップを作成し,その前者を適合させて完全なUVマップと2Dから3Dマップを復元する。 提案手法の再現精度は従来法に比べて優れており,特に操作によって生じる大きな非剛性変形に対処する場合に有用である。

Modeling the shape of garments has received much attention, but most existing approaches assume the garments to be worn by someone, which constrains the range of shapes they can assume. In this work, we address shape recovery when garments are being manipulated instead of worn, which gives rise to an even larger range of possible shapes. To this end, we leverage the implicit sewing patterns (ISP) model for garment modeling and extend it by adding a diffusion-based deformation prior to represent these shapes. To recover 3D garment shapes from incomplete 3D point clouds acquired when the garment is folded, we map the points to UV space, in which our priors are learned, to produce partial UV maps, and then fit the priors to recover complete UV maps and 2D to 3D mappings. Experimental results demonstrate the superior reconstruction accuracy of our method compared to previous ones, especially when dealing with large non-rigid deformations arising from the manipulations.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 多言語化を伴う大規模言語モデルに関する調査研究 : 最近の進歩と新たなフロンティア

A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers ( http://arxiv.org/abs/2405.10936v1 )

ライセンス: Link先を確認
Kaiyu Huang, Fengran Mo, Hongliang Li, You Li, Yuanchi Zhang, Weijian Yi, Yulong Mao, Jinchen Liu, Yuzhuang Xu, Jinan Xu, Jian-Yun Nie, Yang Liu, (参考訳) 大規模言語モデル(LLM)の急速な発展は、自然言語処理において顕著な多言語能力を示し、学術と産業の両方で世界的注目を集めている。 多様な言語ユーザグループの潜在的な差別を緩和し、全体的なユーザビリティとアクセシビリティを高めるためには、言語フェア技術の開発が重要である。 LLMのブレークスルーにもかかわらず、多言語シナリオの調査は依然として不十分であり、最近のアプローチ、開発、制限、潜在的な解決策をまとめた総合的な調査が望ましい。 この目的のために,多言語シナリオにおけるLLMの利用について,複数の視点で調査を行った。 まず,事前学習型言語モデルにおける従来の研究と現在の研究の変遷について再考する。 次に, LLMの多言語性について, トレーニングと推論手法, モデルセキュリティ, 言語文化を伴うマルチドメイン, データセットの利用などを紹介する。 また、可能なソリューションとともに、これらの側面で生じる大きな課題についても論じます。 さらに,多言語化によるLLMのさらなる向上を目指す今後の研究の方向性を強調した。 この調査は、多言語問題に対する研究コミュニティの取り組みを支援し、LLMに基づく多言語自然言語処理における中核的な概念、鍵となる技術、および最新の発展の包括的理解を提供することを目的としている。

The rapid development of Large Language Models (LLMs) demonstrates remarkable multilingual capabilities in natural language processing, attracting global attention in both academia and industry. To mitigate potential discrimination and enhance the overall usability and accessibility for diverse language user groups, it is important for the development of language-fair technology. Despite the breakthroughs of LLMs, the investigation into the multilingual scenario remains insufficient, where a comprehensive survey to summarize recent approaches, developments, limitations, and potential solutions is desirable. To this end, we provide a survey with multiple perspectives on the utilization of LLMs in the multilingual scenario. We first rethink the transitions between previous and current research on pre-trained language models. Then we introduce several perspectives on the multilingualism of LLMs, including training and inference methods, model security, multi-domain with language culture, and usage of datasets. We also discuss the major challenges that arise in these aspects, along with possible solutions. Besides, we highlight future research directions that aim at further enhancing LLMs with multilingualism. The survey aims to help the research community address multilingual problems and provide a comprehensive understanding of the core concepts, key techniques, and latest developments in multilingual natural language processing based on LLMs.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 観察的スケーリング法則と言語モデルの性能予測可能性

Observational Scaling Laws and the Predictability of Language Model Performance ( http://arxiv.org/abs/2405.10938v1 )

ライセンス: Link先を確認
Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto, (参考訳) 言語モデルのパフォーマンスがスケールによってどのように変化するかを理解することは、ベンチマークとアルゴリズム開発にとって非常に重要です。 スケーリング法則は、この理解を構築するためのアプローチのひとつですが、さまざまなスケールでモデルをトレーニングする必要性は、その使用を制限しています。 モデルトレーニングを回避し,約80の公開モデルからスケーリング法則を構築する,代替的,観察的なアプローチを提案する。 複数のモデルファミリから単一のスケーリング法則を構築することは、トレーニングの計算効率と能力に大きなバリエーションがあるため、難しい。 しかし,これらの変動は,言語モデルの性能が低次元能力空間の関数であるような,単純で一般化されたスケーリング法則と一致している。 提案手法は,複数の創発現象がスムーズでシグモダルな挙動を辿り,小さなモデルから予測可能であること,GPT-4のようなモデルにおけるエージェント性能がより単純な非エージェントベンチマークから正確に予測可能であること,そして,言語モデル能力の向上に伴い,Chain-of-ThoughtやSelf-Consistencyといった後学習介入の影響を予測する方法を示す。

Understanding how language model performance varies with scale is critical to benchmark and algorithm development. Scaling laws are one approach to building this understanding, but the requirement of training models across many different scales has limited their use. We propose an alternative, observational approach that bypasses model training and instead builds scaling laws from ~80 publically available models. Building a single scaling law from multiple model families is challenging due to large variations in their training compute efficiencies and capabilities. However, we show that these variations are consistent with a simple, generalized scaling law where language model performance is a function of a low-dimensional capability space, and model families only vary in their efficiency in converting training compute to capabilities. Using this approach, we show the surprising predictability of complex scaling phenomena: we show that several emergent phenomena follow a smooth, sigmoidal behavior and are predictable from small models; we show that the agent performance of models such as GPT-4 can be precisely predicted from simpler non-agentic benchmarks; and we show how to predict the impact of post-training interventions like Chain-of-Thought and Self-Consistency as language model capabilities continue to improve.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# von Mises-Fisher混合モデルとしてのDINO

DINO as a von Mises-Fisher mixture model ( http://arxiv.org/abs/2405.10939v1 )

ライセンス: Link先を確認
Hariprasath Govindarajan, Per Sidén, Jacob Roll, Fredrik Lindsten, (参考訳) シームズネットワークを用いた自己蒸留法は, 自己指導型事前学習に人気がある。 DINOは、表現と学習プロトタイプの間のドット積にソフトマックス関数を適用することで得られる、$K$次元確率ベクトル間のクロスエントロピー損失に基づく方法である。 学習された表現が$L^2$-正規化であるという事実から、DINOとその微分、例えばiBOTは、フォン・ミセス=フィッシャー成分の混合モデルとして解釈できることを示す。 この解釈により、DINOはプロトタイプが$L^2$-正規化されているとき、すべての成分に対して等しい精度を仮定する。 この知見を用いて、クラスタ割り当て確率を計算する際に、適切な正規化定数を追加するDINO-vMFを提案する。 DINOとは異なり、DINO-vMFは非正規化プロトタイプを備えた大型のViT-Baseモデルにも安定している。 混合モデルのさらなる柔軟性は、画像表現の改善の観点から有益であることを示す。 DINO-vMF事前訓練モデルは、下流タスクにおいて、DINOよりも一貫してパフォーマンスが良い。 また,iBOT-vMFとiBOTの類似した改良点が得られた。

Self-distillation methods using Siamese networks are popular for self-supervised pre-training. DINO is one such method based on a cross-entropy loss between $K$-dimensional probability vectors, obtained by applying a softmax function to the dot product between representations and learnt prototypes. Given the fact that the learned representations are $L^2$-normalized, we show that DINO and its derivatives, such as iBOT, can be interpreted as a mixture model of von Mises-Fisher components. With this interpretation, DINO assumes equal precision for all components when the prototypes are also $L^2$-normalized. Using this insight we propose DINO-vMF, that adds appropriate normalization constants when computing the cluster assignment probabilities. Unlike DINO, DINO-vMF is stable also for the larger ViT-Base model with unnormalized prototypes. We show that the added flexibility of the mixture model is beneficial in terms of better image representations. The DINO-vMF pre-trained model consistently performs better than DINO on a range of downstream tasks. We obtain similar improvements for iBOT-vMF vs iBOT and thereby show the relevance of our proposed modification also for other methods derived from DINO.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 低ランクテンソルコンプリートによる変分量子アルゴリズムのランドスケープ再構築

Variational Quantum Algorithm Landscape Reconstruction by Low-Rank Tensor Completion ( http://arxiv.org/abs/2405.10941v1 )

ライセンス: Link先を確認
Tianyi Hao, Zichang He, Ruslan Shaydulin, Marco Pistoia, Swamit Tannu, (参考訳) 変分量子アルゴリズム(VQA)は、科学と産業に多くの応用がある幅広い種類のアルゴリズムである。 問題へのVQAの適用には、コスト関数の最大化または最小化によるパラメータ化量子回路の最適化が含まれる。 VQAに関連する特別な課題は、関連するコスト関数の性質を理解することである。 VQAコスト関数のランドスケープを持つことは、新しい変分量子アルゴリズムの開発とテストに大いに役立つが、計算は非常に高価である。 既存の技術を用いてVQAの景観を再構築するには、特にランドスケープの寸法や解像度が高い場合、多くのコスト関数評価が必要である。 そこで本研究では,局所景観復元のための低ランクテンソル・コンプリート・アプローチを提案する。 テンソルのコンパクトな低ランク表現を利用することで、この手法は次元の呪いを克服し、高解像度の景観を扱うことができる。 本稿では,制約付き最適化問題に対するペナルティ項の解析と,特定の基底状態の確率景観の検証を実践的応用として示すことで,VQA開発における景観のパワーを実証する。

Variational quantum algorithms (VQAs) are a broad class of algorithms with many applications in science and industry. Applying a VQA to a problem involves optimizing a parameterized quantum circuit by maximizing or minimizing a cost function. A particular challenge associated with VQAs is understanding the properties of associated cost functions. Having the landscapes of VQA cost functions can greatly assist in developing and testing new variational quantum algorithms, but they are extremely expensive to compute. Reconstructing the landscape of a VQA using existing techniques requires a large number of cost function evaluations, especially when the dimension or the resolution of the landscape is high. To address this challenge, we propose a low-rank tensor-completion-based approach for local landscape reconstruction. By leveraging compact low-rank representations of tensors, our technique can overcome the curse of dimensionality and handle high-resolution landscapes. We demonstrate the power of landscapes in VQA development by showcasing practical applications of analyzing penalty terms for constrained optimization problems and examining the probability landscapes of certain basis states.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 分散量子コンピューティングによる限定接続下における量子コンピューティングのスケーラビリティ向上

Scalability enhancement of quantum computing under limited connectivity through distributed quantum computing ( http://arxiv.org/abs/2405.10942v1 )

ライセンス: Link先を確認
Shao-Hua Hu, George Biswas, Jun-Yi Wu, (参考訳) 本稿では、量子体積ランダム回路サンプリングを用いて、2QPUエンタングルメント支援分散量子コンピューティング(DQC)をベンチマークし、単一QPU量子コンピューティングと比較する。 まず、ランダム回路において、単一キュービットの非偏極ノイズモデルを指定する。 この誤差モデルに基づいて、平均ゲート忠実度、重出力確率、線形クロスエントロピーの3つの図形の1対1対応を示す。 本研究では,特定雑音モデルに基づく平均ゲート忠実度の解析的近似を導出し,数値シミュレーションと整合性を示す。 近似は、DQCデバイスの拡張接続グラフから得られる割り当て行列に基づいて算出される。 数値シミュレーションでは,接続性に制限のあるQPUに対するDQCのスケーラビリティ向上について紹介する。 さらに,DQCにおける拡張性を評価するためのヒューリスティックな手法と,DQC構成の構造を最適化するためのガイドも提供する。

We employ quantum-volume random-circuit sampling to benchmark the two-QPU entanglement-assisted distributed quantum computing (DQC), and compare it with single-QPU quantum computing. We first specify a single-qubit depolarizing noise model in the random circuit. Based on this error model, we show the one-to-one correspondence of three figures of merits, namely average gate fidelity, heavy output probability, and linear cross-entropy. We derive an analytical approximation of the average gate fidelity under the specified noise model, which is shown to align with numerical simulations. The approximation is calculated based on an allocation matrix obtained from the extended connectivity graph of a DQC device. In numerical simulation, we unveil the scalability enhancement in DQC for the QPUs with limited connectivity. Furthermore, we provide a simple formula to estimate the average gate fidelity, which also provides us with a heuristic method to evaluate the scalability enhancement in DQC, and a guide to optimize the structure of a DQC configuration.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 層状ニオブ酸リチウムナノフォトニック導波路における高効率光子対生成

Efficient photon-pair generation in layer-poled lithium niobate nanophotonic waveguides ( http://arxiv.org/abs/2405.10943v1 )

ライセンス: Link先を確認
Xiaodong Shi, Sakthi Sanjeev Mohanraj, Veerendra Dhyani, Angela Anna Baiju, Sihao Wang, Jiapeng Sun, Lin Zhou, Anna Paterova, Victor Leong, Di Zhu, (参考訳) 集積光子対光源はスケーラブルなフォトニック量子システムに不可欠である。 薄膜ニオブ酸リチウムは、自然パラメトリックダウンコンバージョン(SPDC)によるオンチップ光子ペア生成のための有望なプラットフォームである。 しかし、デバイスの実装は現実的な課題に直面している。 安定な準相整合が可能であるにもかかわらず、周期的な極性リチウムニオブ酸リチウム(PPLN)は製造の信頼性と装置の繰り返し性に乏しく、一方、従来のモード整合法(MPM)は不適切なモードの重なりによって限られた効率が得られる。 そこで我々は,光子対生成を効率的に行うために,層状窒化リチウム(LPLN)ナノフォトニック導波路を導入する。 電気ポーリングによる層方向の極性反転を利用して空間対称性を破り、MPMの非線形相互作用を著しく向上し、4615% W^{-1}cm^{-2}の顕著な正規化第二高調波発生(SHG)変換効率を達成する。 SHG法とSPDC法を用いて,3.3mmのLPLN導波路において,3.1*10^6 Hz nm^{-1} mW^{-2}の正規化輝度を持つ光子対生成を実測し,同様の動作条件下での既存のオンチップ源を超越した。 重要なことは、我々のLPLN導波路は、PPLNデバイスと比較して製造信頼性が向上し、幾何学的変動や温度変動に対する感度が低下する。 我々は、LPLNをオンチップの非線形波長変換と非古典的光発生のための有望なソリューションとして期待し、量子通信、ネットワーク、オンチップのフォトニック量子情報処理に直ちに応用する。

Integrated photon-pair sources are crucial for scalable photonic quantum systems. Thin-film lithium niobate is a promising platform for on-chip photon-pair generation through spontaneous parametric down-conversion (SPDC). However, the device implementation faces practical challenges. Periodically poled lithium niobate (PPLN), despite enabling flexible quasi-phase matching, suffers from poor fabrication reliability and device repeatability, while conventional modal phase matching (MPM) methods yield limited efficiencies due to inadequate mode overlaps. Here, we introduce a layer-poled lithium niobate (LPLN) nanophotonic waveguide for efficient photon-pair generation. It leverages layer-wise polarity inversion through electrical poling to break spatial symmetry and significantly enhance nonlinear interactions for MPM, achieving a notable normalized second-harmonic generation (SHG) conversion efficiency of 4615% W^{-1}cm^{-2}. Through a cascaded SHG and SPDC process, we demonstrate photon-pair generation with a normalized brightness of 3.1*10^6 Hz nm^{-1} mW^{-2} in a 3.3 mm long LPLN waveguide, surpassing existing on-chip sources under similar operating configurations. Crucially, our LPLN waveguides offer enhanced fabrication reliability and reduced sensitivity to geometric variations and temperature fluctuations compared to PPLN devices. We expect LPLN to become a promising solution for on-chip nonlinear wavelength conversion and non-classical light generation, with immediate applications in quantum communication, networking, and on-chip photonic quantum information processing.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 反応流の高速忠実度シミュレーションのための確率的伝達学習手法

Probabilistic transfer learning methodology to expedite high fidelity simulation of reactive flows ( http://arxiv.org/abs/2405.10944v1 )

ライセンス: Link先を確認
Bruno S. Soriano, Ki Sung Jung, Tarek Echekki, Jacqueline H. Chen, Mohammad Khalil, (参考訳) 反応流の直接数値シミュレーション(DNS)に関連する計算コストを削減するため, 主成分輸送 (PC) や機械学習 (ML) 技術などの熱化学状態の低次元多様体表現の輸送に基づく次数モデルを開発した。 PCトランスポートとMLは、DNSの禁止コストや実験データ取得のために利用できない十分な予測精度を示すために、通常大量のデータを必要とする。 このような困難を軽減するために、既存のデータセットやドメイン(ソースドメイン)からの類似したデータをMLモデルのトレーニングに使用することができる。 本研究では,低次元多様体とスパースデータ設定における熱化学的状態を正確に予測する上で,MLモデルの信頼性を高めるための新しい確率移動学習(TL)フレームワークを提案する。 このフレームワークはベイズニューラルネットワークとオートエンコーダを使用して、状態空間の次元を減らし、ソースからターゲットドメインに知識を拡散する。 新しいフレームワークは、異なるデータ空間シナリオ下での1次元自由伝搬火炎解に適用される。 その結果、対象ドメインで利用可能なデータ量と、ドメイン間の類似性に依存する、転送するべき最適な知識量があることが判明した。 TLは, 広範囲の症例において, 再建誤差を1桁の精度で低減することができる。 新しいフレームワークでは、豊富なデータシナリオと同じエラーを再現するために、ターゲットドメインの10倍のデータを要求した。 さらに、最先端の決定論的TL戦略との比較により、この確率的手法は、同じ再構成誤差を達成するのに4倍のデータを要求できることが示されている。

Reduced order models based on the transport of a lower dimensional manifold representation of the thermochemical state, such as Principal Component (PC) transport and Machine Learning (ML) techniques, have been developed to reduce the computational cost associated with the Direct Numerical Simulations (DNS) of reactive flows. Both PC transport and ML normally require an abundance of data to exhibit sufficient predictive accuracy, which might not be available due to the prohibitive cost of DNS or experimental data acquisition. To alleviate such difficulties, similar data from an existing dataset or domain (source domain) can be used to train ML models, potentially resulting in adequate predictions in the domain of interest (target domain). This study presents a novel probabilistic transfer learning (TL) framework to enhance the trust in ML models in correctly predicting the thermochemical state in a lower dimensional manifold and a sparse data setting. The framework uses Bayesian neural networks, and autoencoders, to reduce the dimensionality of the state space and diffuse the knowledge from the source to the target domain. The new framework is applied to one-dimensional freely-propagating flame solutions under different data sparsity scenarios. The results reveal that there is an optimal amount of knowledge to be transferred, which depends on the amount of data available in the target domain and the similarity between the domains. TL can reduce the reconstruction error by one order of magnitude for cases with large sparsity. The new framework required 10 times less data for the target domain to reproduce the same error as in the abundant data scenario. Furthermore, comparisons with a state-of-the-art deterministic TL strategy show that the probabilistic method can require four times less data to achieve the same reconstruction error.
翻訳日:2024-05-20 15:24:17 公開日:2024-05-17
# 一様悲観的リスクとその最適ポートフォリオ

Uniform Pessimistic Risk and its Optimal Portfolio ( http://arxiv.org/abs/2303.07158v3 )

ライセンス: Link先を確認
Sungchul Hong, Jong-June Jeon, (参考訳) 資産の最適配分はリスク尺度の理論的分析で広く議論されており、悲観論は従来の最適ポートフォリオモデルを超えた最も魅力的なアプローチの1つである。 $\alpha$-riskは、悲観的最適ポートフォリオの幅広いクラスを導出する上で重要な役割を果たす。 しかしながら、悲観的リスクによって評価された最適ポートフォリオを推定することは、計算的に抽出可能なモデルが存在しないため、依然として困難である。 本研究では,リスクに基づいて最適なポートフォリオを得るために,$\alpha$-risk を \textit{uniform pessimistic risk} と呼ぶ積分と計算アルゴリズムを提案する。 さらに、多重量子回帰、適切なスコアリングルール、分布論的ロバストな最適化の3つのアプローチの観点から、提案したリスクの理論的性質について検討する。 3つのストックデータセット(S\&P500、CSI500、KOSPI200)の実データ分析は、提案されたリスクとポートフォリオモデルの有用性を示している。

The optimal allocation of assets has been widely discussed with the theoretical analysis of risk measures, and pessimism is one of the most attractive approaches beyond the conventional optimal portfolio model. The $\alpha$-risk plays a crucial role in deriving a broad class of pessimistic optimal portfolios. However, estimating an optimal portfolio assessed by a pessimistic risk is still challenging due to the absence of a computationally tractable model. In this study, we propose an integral of $\alpha$-risk called the \textit{uniform pessimistic risk} and the computational algorithm to obtain an optimal portfolio based on the risk. Further, we investigate the theoretical properties of the proposed risk in view of three different approaches: multiple quantile regression, the proper scoring rule, and distributionally robust optimization. Real data analysis of three stock datasets (S\&P500, CSI500, KOSPI200) demonstrates the usefulness of the proposed risk and portfolio model.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# データ駆動物理インフォームドニューラルネットワーク:デジタル双対視点

Data-Driven Physics-Informed Neural Networks: A Digital Twin Perspective ( http://arxiv.org/abs/2401.08667v3 )

ライセンス: Link先を確認
Sunwoong Yang, Hojin Kim, Yoonpyo Hong, Kwanjung Yee, Romit Maulik, Namwoo Kang, (参考訳) 本研究では, 物理インフォームドニューラルネットワーク(PINN)によるディジタル双生児(DT)の実現の可能性について, 様々な観点から検討した。 まず,手動によるメッシュ生成を伴わない仮想表現の自動構築を可能にするPINNのメッシュフリーフレームワークにおいて,コロケーションポイントに対する様々な適応サンプリング手法の有効性を検証した。 次に,データ駆動型PINN(DD-PINN)フレームワークの全体的な性能について検討し,DTシナリオで取得したデータセットを活用する。 より一般的な物理学へのスケーラビリティはパラメトリックなナビエ・ストークス方程式で検証され、レイノルズ数が異なるため、PINNは再訓練される必要はない。 また, 実際に異なる忠実度/疎度からデータセットを収集できるため, 多忠実DD-PINNも提案され, 評価されている。 これらは外挿タスクにおいても顕著な予測性能を示し、シングルフィデリティアプローチよりも42\sim62\%$改善されている。 最後に,多要素DD-PINNの不確実性定量化性能をアンサンブル法を用いて検討し,精度の高い予測不確かさの測定が重要であるDTにおけるその可能性を検証する。 この研究で調べたDD-PINNフレームワークは、上記の観点から従来のPINNよりもDTシナリオに適していることが分かり、エンジニアはシームレスなDTの実現に一歩近づいた。

This study explores the potential of physics-informed neural networks (PINNs) for the realization of digital twins (DT) from various perspectives. First, various adaptive sampling approaches for collocation points are investigated to verify their effectiveness in the mesh-free framework of PINNs, which allows automated construction of virtual representation without manual mesh generation. Then, the overall performance of the data-driven PINNs (DD-PINNs) framework is examined, which can utilize the acquired datasets in DT scenarios. Its scalability to more general physics is validated within parametric Navier-Stokes equations, where PINNs do not need to be retrained as the Reynolds number varies. In addition, since datasets can be often collected from different fidelity/sparsity in practice, multi-fidelity DD-PINNs are also proposed and evaluated. They show remarkable prediction performance even in the extrapolation tasks, with $42\sim62\%$ improvement over the single-fidelity approach. Finally, the uncertainty quantification performance of multi-fidelity DD-PINNs is investigated by the ensemble method to verify their potential in DT, where an accurate measure of predictive uncertainty is critical. The DD-PINN frameworks explored in this study are found to be more suitable for DT scenarios than traditional PINNs from the above perspectives, bringing engineers one step closer to seamless DT realization.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# 不変リスク最小化は全変動モデルである

Invariant Risk Minimization Is A Total Variation Model ( http://arxiv.org/abs/2405.01389v5 )

ライセンス: Link先を確認
Zhao-Rong Lai, Weiwen Wang, (参考訳) 不変リスク最小化(英: Invariant risk minimization、IRM)とは、機械学習において、不変の機能を様々な環境に一般化する手法である。 ほとんどの関連する研究は、新しいIRM設定や新しいアプリケーションシナリオに焦点を当てているが、IRMの数学的本質は、まだ適切に説明されていない。 IRM は本質的に分類器変数に関する学習リスクの $L^2$ norm (TV-$\ell_2$) に基づく総変量であることを示す。 さらに,TV-$\ell_1$モデルに基づく新しいIRMフレームワークを提案する。 学習リスクと特徴抽出器として使用できる関数のクラスを拡大するだけでなく、コアレア式に基づくデノナイズおよび不変特徴保存の堅牢な性能も備えている。 IRM-TV-$\ell_1$のアウト・オブ・ディストリビューションの一般化の要求についても述べる。 実験結果から,提案フレームワークは,いくつかのベンチマーク機械学習シナリオにおいて,競合性能を実現することが示された。

Invariant risk minimization (IRM) is an arising approach to generalize invariant features to different environments in machine learning. While most related works focus on new IRM settings or new application scenarios, the mathematical essence of IRM remains to be properly explained. We verify that IRM is essentially a total variation based on $L^2$ norm (TV-$\ell_2$) of the learning risk with respect to the classifier variable. Moreover, we propose a novel IRM framework based on the TV-$\ell_1$ model. It not only expands the classes of functions that can be used as the learning risk and the feature extractor, but also has robust performance in denoising and invariant feature preservation based on the coarea formula. We also illustrate some requirements for IRM-TV-$\ell_1$ to achieve out-of-distribution generalization. Experimental results show that the proposed framework achieves competitive performance in several benchmark machine learning scenarios.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# OpenLLM-Ro -- ルーマニアのオープンソースLLMに関する技術報告

OpenLLM-Ro -- Technical Report on Open-source Romanian LLMs ( http://arxiv.org/abs/2405.07703v5 )

ライセンス: Link先を確認
Mihai Masala, Denis C. Ilie-Ablachim, Dragos Corlatescu, Miruna Zavelca, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea, (参考訳) 近年、LLM(Large Language Models)は、様々なタスクにおいて、ほぼ人間のようなパフォーマンスを実現している。 一部のLSMは多言語データで訓練されているが、ほとんどのトレーニングデータは英語で書かれている。 したがって、彼らの英語での演奏は、他の言語での演奏よりもはるかに多い。 本論文では,ルーマニア語を専門とする最初の基礎的・チャット型LLMの学習と評価について述べる。

In recent years, Large Language Models (LLMs) have achieved almost human-like performance on various tasks. While some LLMs have been trained on multilingual data, most of the training data is in English. Hence, their performance in English greatly exceeds their performance in other languages. This document presents our approach to training and evaluating the first foundational and chat LLM specialized for Romanian.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# Hyper-Trees による予測

Forecasting with Hyper-Trees ( http://arxiv.org/abs/2405.07836v2 )

ライセンス: Link先を確認
Alexander März, Kashif Rasul, (参考訳) 本稿では,Hyper-Treesの概念を紹介し,時系列データにツリーモデルを適用するための新たな方向性を提案する。 時系列を直接予測する従来の決定木とは異なり、ハイパートレーは対象時系列モデルのパラメータを学習するために設計されている。 このフレームワークは,木を増木する勾配に基づく性質を活用し,ハイパーネットワークの概念をハイパートレーに拡張し,木モデルに時系列帰納バイアスを誘導する。 対象とする時系列モデルのパラメータを特徴に関連付けることで、Hyper-Treesはパラメータ非定常性の問題に対処し、ツリーベースの予測がトレーニング範囲を超えて拡張できるようにする。 本研究では,様々な予測シナリオにまたがるハイパートレーの効果について検討し,時系列モデリングにおける従来の利用以外での勾配向上決定木の適用を拡大することを目的とする。

This paper introduces the concept of Hyper-Trees and offers a new direction in applying tree-based models to time series data. Unlike conventional applications of decision trees that forecast time series directly, Hyper-Trees are designed to learn the parameters of a target time series model. Our framework leverages the gradient-based nature of boosted trees, which allows us to extend the concept of Hyper-Networks to Hyper-Trees and to induce a time-series inductive bias to tree models. By relating the parameters of a target time series model to features, Hyper-Trees address the issue of parameter non-stationarity and enable tree-based forecasts to extend beyond their training range. With our research, we aim to explore the effectiveness of Hyper-Trees across various forecasting scenarios and to extend the application of gradient boosted decision trees outside their conventional use in time series modeling.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# 異なるガウスに付随するHagedorn波束について

On Hagedorn wavepackets associated with different Gaussians ( http://arxiv.org/abs/2405.07880v3 )

ライセンス: Link先を確認
Jiří J. L. Vaníček, Zhan Tong Zhang, (参考訳) Hagedorn関数は、多次元圧縮および結合調和系の設定に対して、エルミート関数の慎重に構成された一般化である。 Hagedorn関数の重ね合わせによって形成されるウェーブパペットは、調和系とアンハーモニック系の変分において、時間依存のシュルンディンガー方程式を正確に解くのに成功している。 位置や運動エネルギーなどの典型的な観測可能量を評価するためには、単一のガウス中心を持つ正則ハゲゴルン函数を考えるのに十分である。 ここでは、スペクトル計算に必要な時間相関関数など、時間的に非局所的な量を評価するのに必要な重なり合いを含む、異なるガウスに関連付けられたヘッジル基底間の様々な関係を導出する。 まず、ボゴリューボフ変換を用いて、異なるガウス作用素に関連するはしご作用素間の可換関係を得る。 そして、数値的な二次式を使う代わりに、これらの可換関係を用いて、異なるガウス中心を持つハゲゴルン函数間の重なり合う積分の正確な反復関係を導出する。 最後に、我々の代数的手法の精度と効率を実証する数値実験を行い、分光学や化学力学の問題を扱いやすくする。

Hagedorn functions are carefully constructed generalizations of Hermite functions to the setting of many-dimensional squeezed and coupled harmonic systems. Wavepackets formed by superpositions of Hagedorn functions have been successfully used to solve the time-dependent Schr\"{o}dinger equation exactly in harmonic systems and variationally in anharmonic systems. For evaluating typical observables, such as position or kinetic energy, it is sufficient to consider orthonormal Hagedorn functions with a single Gaussian center. Here, we instead derive various relations between Hagedorn bases associated with different Gaussians, including their overlaps, which are necessary for evaluating quantities nonlocal in time, such as time correlation functions needed for computing spectra. First, we use the Bogoliubov transformation to obtain commutation relations between the ladder operators associated with different Gaussians. Then, instead of using numerical quadrature, we employ these commutation relations to derive exact recurrence relations for the overlap integrals between Hagedorn functions with different Gaussian centers. Finally, we present numerical experiments that demonstrate the accuracy and efficiency of our algebraic method as well as its suitability to treat problems in spectroscopy and chemical dynamics.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# 画像超解像における低パスフィルタ挙動の探索

Exploring the Low-Pass Filtering Behavior in Image Super-Resolution ( http://arxiv.org/abs/2405.07919v2 )

ライセンス: Link先を確認
Haoyu Deng, Zijing Xu, Yule Duan, Xiao Wu, Wenjie Shu, Liang-Jian Deng, (参考訳) 画像超解像のためのディープニューラルネットワーク(ISR)は、補間のような従来のアプローチよりも大きな優位性を示している。 しかし、堅固な数学的基礎を持つ伝統的なアプローチに比べて「黒い箱」と批判されることが多い。 本稿では、信号処理の分野からの理論を用いて、ISRにおけるディープニューラルネットワークの挙動を解釈しようとする。 まず,「シンク現象」と呼ばれる興味深い現象を報告する。 「インパルス入力をニューラルネットワークに入力した場合に発生する。」 そこで本研究では,AIRタスクにおけるニューラルネットワークの挙動を解析するHybrid Response Analysis (Hybrid Response Analysis, HyRA) を提案する。 具体的には、線形系と非線形系の並列接続にニューラルネットワークを分解し、非線形系が高周波情報を注入している間に、線形系がローパスフィルタとして機能することを示す。 最後に、入射した高周波情報を定量化するために、周波数スペクトル分布類似度(FSDS)と呼ばれる画像から画像へのタスクのメトリクスを導入する。 FSDSは、異なる周波数成分の分布類似性を反映し、従来のメトリクスが見落としている可能性のあるニュアンスをキャプチャすることができる。 この論文のコード、ビデオ、生の実験結果は、https://github.com/RisingEntropy/LPFInISR.comで見ることができる。

Deep neural networks for image super-resolution (ISR) have shown significant advantages over traditional approaches like the interpolation. However, they are often criticized as 'black boxes' compared to traditional approaches with solid mathematical foundations. In this paper, we attempt to interpret the behavior of deep neural networks in ISR using theories from the field of signal processing. First, we report an intriguing phenomenon, referred to as `the sinc phenomenon.' It occurs when an impulse input is fed to a neural network. Then, building on this observation, we propose a method named Hybrid Response Analysis (HyRA) to analyze the behavior of neural networks in ISR tasks. Specifically, HyRA decomposes a neural network into a parallel connection of a linear system and a non-linear system and demonstrates that the linear system functions as a low-pass filter while the non-linear system injects high-frequency information. Finally, to quantify the injected high-frequency information, we introduce a metric for image-to-image tasks called Frequency Spectrum Distribution Similarity (FSDS). FSDS reflects the distribution similarity of different frequency components and can capture nuances that traditional metrics may overlook. Code, videos and raw experimental results for this paper can be found in: https://github.com/RisingEntropy/LPFInISR.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# 多量子クリフォード-シクロトミック回路の精密合成

Exact Synthesis of Multiqutrit Clifford-Cyclotomic Circuits ( http://arxiv.org/abs/2405.08136v2 )

ライセンス: Link先を確認
Andrew N. Glaudel, Neil J. Ross, John van de Wetering, Lia Yeh, (参考訳) Toffoli+Hadamard, Clifford+$T$ あるいはより一般的には、Clifford-cyclotomic gate set はちょうど環 $\mathbb{Z}[1/2,\zeta_k]$ のエントリを持つユニタリ行列である。 本稿では,四重項の類似対応性を確立する。 古典的なクォートゲートを$X$, $CX$, and Toffoli に拡張し、ハダードゲートを $H$ とシングルクォートゲートを $T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$ とすることで、次数3^k$ の多重クォートゲート集合を定義する。 このゲートセットは、$k=1$のとき、qutrit Toffoli+Hadamardゲートセット、$k>1$のとき、qutrit Clifford+$T_k$ゲートセットと等価である。 すると、3^n\times 3^n$ のユニタリ行列 $U$ が、位数 $3^k$ のクリフォード-シクロトミックゲート集合上の$n$-qutrit 回路で表せることを証明し、$U$ の成分が環 $\mathbb{Z}[1/3,\omega_k]$ にある場合に限る。

It is known that the unitary matrices that can be exactly represented by a multiqubit circuit over the Toffoli+Hadamard, Clifford+$T$, or, more generally, Clifford-cyclotomic gate set are precisely the unitary matrices with entries in the ring $\mathbb{Z}[1/2,\zeta_k]$, where $k$ is a positive integer that depends on the gate set and $\zeta_k$ is a primitive $2^k$-th root of unity. In this paper, we establish the analogous correspondence for qutrits. We define the multiqutrit Clifford-cyclotomic gate set of order $3^k$ by extending the classical qutrit gates $X$, $CX$, and Toffoli with the Hadamard gate $H$ and the single-qutrit gate $T_k=\mathrm{diag}(1,\omega_k, \omega_k^2)$, where $\omega_k$ is a primitive $3^k$-th root of unity. This gate set is equivalent to the qutrit Toffoli+Hadamard gate set when $k=1$, and to the qutrit Clifford+$T_k$ gate set when $k>1$. We then prove that a $3^n\times 3^n$ unitary matrix $U$ can be represented by an $n$-qutrit circuit over the Clifford-cyclotomic gate set of order $3^k$ if and only if the entries of $U$ lie in the ring $\mathbb{Z}[1/3,\omega_k]$.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# 無限水平離散決定過程に対するトンプソンサンプリング

Thompson Sampling for Infinite-Horizon Discounted Decision Processes ( http://arxiv.org/abs/2405.08253v2 )

ライセンス: Link先を確認
Daniel Adelman, Cagla Keceli, Alba V. Olivares-Nadal, (参考訳) 我々は、未知パラメータによってパラメータ化されたマルコフ決定過程をモデル化し、トンプソンサンプリングと呼ばれるサンプリングベースアルゴリズムの漸近挙動を研究する。 後悔の標準的な定義は、特に下層の連鎖構造が一般である場合、政策を評価するのに必ずしも適していない。 我々は、(予想された)後悔が(超)直線的に成長し、非自明な状態進化を伴う現実的な環境での学習の概念を捉えることができないことを示す。 標準的な(予想された)後悔を分解することで、期待された後悔という新しい尺度を開発し、過去の行動の不変な結果を無視します。 代わりに、現在の期間から進む最適な報酬に対して後悔を測る。 トンプソンサンプリングアルゴリズムの残差残差は指数関数的に0に収束する項によって上界化されていることを示す。 我々は、トンプソンサンプリングの後方サンプリング誤差がほぼ確実に0に収束する条件を示す。 次に、期待された残差残差の確率バージョンと、それがほぼ確実に 0 に収束する現在の条件を導入する。 そこで本研究では,これまで考えられてきたよりも広い環境において有用なアルゴリズムを抽出する学習方法を提案する。

We model a Markov decision process, parametrized by an unknown parameter, and study the asymptotic behavior of a sampling-based algorithm, called Thompson sampling. The standard definition of regret is not always suitable to evaluate a policy, especially when the underlying chain structure is general. We show that the standard (expected) regret can grow (super-)linearly and fails to capture the notion of learning in realistic settings with non-trivial state evolution. By decomposing the standard (expected) regret, we develop a new metric, called the expected residual regret, which forgets the immutable consequences of past actions. Instead, it measures regret against the optimal reward moving forward from the current period. We show that the expected residual regret of the Thompson sampling algorithm is upper bounded by a term which converges exponentially fast to 0. We present conditions under which the posterior sampling error of Thompson sampling converges to 0 almost surely. We then introduce the probabilistic version of the expected residual regret and present conditions under which it converges to 0 almost surely. Thus, we provide a viable concept of learning for sampling algorithms which will serve useful in broader settings than had been considered previously.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# Differentially Private Federated Learning: システムレビュー

Differentially Private Federated Learning: A Systematic Review ( http://arxiv.org/abs/2405.08299v2 )

ライセンス: Link先を確認
Jie Fu, Yuan Hong, Xinpeng Ling, Leixia Wang, Xun Ran, Zhiyu Sun, Wendy Hui Wang, Zhili Chen, Yang Cao, (参考訳) 近年、機械学習におけるプライバシとセキュリティの懸念が、信頼できるフェデレーション学習を研究の最前線に押し上げている。 微分プライバシーは、厳格な数学的基盤と証明可能な保証のために、連邦学習におけるプライバシー保護の事実上の標準として登場した。 差分プライバシーをフェデレート学習に組み込むアルゴリズムに関する広範な研究にもかかわらず、これらの研究を分類し、合成する体系的なレビューには明らかな欠陥がある。 我々の研究は、差分的にプライベートなフェデレーション学習の体系的な概要を提示する。 既存の分類学は、連邦学習において様々な差分プライバシーモデルによって提供される対象やプライバシー保護のレベルを十分に考慮していない。 このギャップを是正するために,様々な異なるプライバシモデルとフェデレーションシナリオの定義と保証に基づく,微分プライベートなフェデレーション学習の新しい分類法を提案する。 我々の分類では、保護対象を様々な差分プライバシモデルと、フェデレートされた学習環境内のそれぞれの近隣レベルにわたって明確に記述することができる。 さらに,フェデレート学習シナリオにおける差分プライバシーの適用について検討する。 本研究は,プライバシ保護フェデレーション学習に関する貴重な知見を提供し,今後の研究に向けた実践的方向性を提案する。

In recent years, privacy and security concerns in machine learning have promoted trusted federated learning to the forefront of research. Differential privacy has emerged as the de facto standard for privacy protection in federated learning due to its rigorous mathematical foundation and provable guarantee. Despite extensive research on algorithms that incorporate differential privacy within federated learning, there remains an evident deficiency in systematic reviews that categorize and synthesize these studies. Our work presents a systematic overview of the differentially private federated learning. Existing taxonomies have not adequately considered objects and level of privacy protection provided by various differential privacy models in federated learning. To rectify this gap, we propose a new taxonomy of differentially private federated learning based on definition and guarantee of various differential privacy models and federated scenarios. Our classification allows for a clear delineation of the protected objects across various differential privacy models and their respective neighborhood levels within federated learning environments. Furthermore, we explore the applications of differential privacy in federated learning scenarios. Our work provide valuable insights into privacy-preserving federated learning and suggest practical directions for future research.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# 一般用(PINGU)における血管周囲空間同定

Perivascular space Identification Nnunet for Generalised Usage (PINGU) ( http://arxiv.org/abs/2405.08337v2 )

ライセンス: Link先を確認
Benjamin Sinclair, Lucy Vivash, Jasmine Moses, Miranda Lynch, William Pham, Karina Dorfman, Cassandra Marotta, Shaun Koh, Jacob Bunyamin, Ella Rowsthorn, Alex Jarema, Himashi Peiris, Zhaolin Chen, Sandy R Shultz, David K Wright, Dexiao Kong, Sharon L. Naismith, Terence J. OBrien, Meng Law, (参考訳) 血管周囲の空間(PVSs)は、グリフ系(英語版)である脳の廃棄物クリアランス系の中心的な構成要素である。 これらの構造はMRI画像で見ることができ、その形態は老化や神経疾患と関連している。 PVSのマニュアル定量化は時間がかかり主観的である。 PVSセグメンテーションのための多くの深層学習法が開発されているが、その大部分は同種データセットや高分解能スキャンで開発・評価されており、おそらくクリニックや研究で得られた幅広い画像品質に対する適用性を制限している。 本研究では、6つの異なるデータセットから、さまざまな品質と解像度のMRI画像を手動で分割する異種トレーニングサンプルを用いて、トップパフォーマンスのバイオメディカルイメージセグメンテーションアルゴリズムであるnnUNetをトレーニングする。 これらは、PVSの3Dセグメンテーションのための公開のディープラーニング手法と比較される。 PINGU (Perivascular space Identification Nnunet for Generalized Usage) は、白質(WM)では0.50(SD=0.15), 0.63(0.17),基底神経節(BG)では0.54(0.11), 0.66(0.17)のボクセルとクラスターレベルのダイススコアを得た。 PINGU(0.20-0.38(WM, voxel), 0.29-0.58(WM, cluster), 0.22-0.36(BG, voxel), 0.46-0.60(BG, cluster))と一般に公開されているアルゴリズム(0.18-0.30(WM, voxel), 0.29-0.38(WM cluster), 0.10-0.20(BG, voxel), 0.15-0.37(BG, cluster))ではかなり低かったが、PINGUは一般に公開されているアルゴリズム(特にBGでは特に優れていた。 最後に、PINGUを1つのサイトから手動セグメンテーションでトレーニングすると、内部クロスバリデーションの性能は極端に低下するが、いくつかのケースでは外部バリデーションのパフォーマンスが向上した。 PINGUは広義のPVSセグメンテーションツールであり、特にBGは血管疾患や病理に関連するPVSの領域である。

Perivascular spaces(PVSs) form a central component of the brain\'s waste clearance system, the glymphatic system. These structures are visible on MRI images, and their morphology is associated with aging and neurological disease. Manual quantification of PVS is time consuming and subjective. Numerous deep learning methods for PVS segmentation have been developed, however the majority have been developed and evaluated on homogenous datasets and high resolution scans, perhaps limiting their applicability for the wide range of image qualities acquired in clinic and research. In this work we train a nnUNet, a top-performing biomedical image segmentation algorithm, on a heterogenous training sample of manually segmented MRI images of a range of different qualities and resolutions from 6 different datasets. These are compared to publicly available deep learning methods for 3D segmentation of PVS. The resulting model, PINGU (Perivascular space Identification Nnunet for Generalised Usage), achieved voxel and cluster level dice scores of 0.50(SD=0.15), 0.63(0.17) in the white matter(WM), and 0.54(0.11), 0.66(0.17) in the basal ganglia(BG). Performance on data from unseen sites was substantially lower for both PINGU(0.20-0.38(WM, voxel), 0.29-0.58(WM, cluster), 0.22-0.36(BG, voxel), 0.46-0.60(BG, cluster)) and the publicly available algorithms(0.18-0.30(WM, voxel), 0.29-0.38(WM cluster), 0.10-0.20(BG, voxel), 0.15-0.37(BG, cluster)), but PINGU strongly outperformed the publicly available algorithms, particularly in the BG. Finally, training PINGU on manual segmentations from a single site with homogenous scan properties gave marginally lower performances on internal cross-validation, but in some cases gave higher performance on external validation. PINGU stands out as broad-use PVS segmentation tool, with particular strength in the BG, an area of PVS related to vascular disease and pathology.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# TFWT: Transformer によるタブラルな特徴重み付け

TFWT: Tabular Feature Weighting with Transformer ( http://arxiv.org/abs/2405.08403v2 )

ライセンス: Link先を確認
Xinhao Zhang, Zaitian Wang, Lu Jiang, Wanfu Gao, Pengfei Wang, Kunpeng Liu, (参考訳) 本稿では,従来のグラフデータの特徴処理手法の限界に対処する特徴重み付け手法を提案する。 通常、既存のメソッドは1つのデータセット内のすべてのサンプルと機能に対して同等に重要であると仮定する。 この単純化された処理方法は、各機能のユニークな貢献を見落とし、重要な特徴情報を見逃す可能性がある。 結果として、リッチな特徴を持つ複雑なデータセットにおいて、最適以下のパフォーマンスがもたらされる。 この問題に対処するため,Tarbular Feature Weighting with Transformerを導入する。 本手法では,Transformerを用いて複雑な特徴の依存関係をキャプチャし,離散的かつ連続的な特徴に適切な重み付けをコンテキスト的に割り当てる。 さらに,重み付けプロセスをさらに微調整するために,強化学習戦略を採用している。 実世界の様々なデータセットと様々な下流タスクにまたがる広範な実験結果から、TFWTの有効性が示され、表層データ解析における特徴重み付けの強化の可能性が浮き彫りにされている。

In this paper, we propose a novel feature weighting method to address the limitation of existing feature processing methods for tabular data. Typically the existing methods assume equal importance across all samples and features in one dataset. This simplified processing methods overlook the unique contributions of each feature, and thus may miss important feature information. As a result, it leads to suboptimal performance in complex datasets with rich features. To address this problem, we introduce Tabular Feature Weighting with Transformer, a novel feature weighting approach for tabular data. Our method adopts Transformer to capture complex feature dependencies and contextually assign appropriate weights to discrete and continuous features. Besides, we employ a reinforcement learning strategy to further fine-tune the weighting process. Our extensive experimental results across various real-world datasets and diverse downstream tasks show the effectiveness of TFWT and highlight the potential for enhancing feature weighting in tabular data analysis.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-17
# 潜在拡散モデルによる脳波データからの自然音楽復号

Naturalistic Music Decoding from EEG Data via Latent Diffusion Models ( http://arxiv.org/abs/2405.09062v2 )

ライセンス: Link先を確認
Emilian Postolache, Natalia Polouliakh, Hiroaki Kitano, Akima Connelly, Emanuele Rodolà, Taketo Akama, (参考訳) 本稿では,脳波(EEG)記録から自然音楽の再構成を行うために,強力な生成モデル群である潜時拡散モデルを用いることの可能性について検討する。 MIDI生成曲やモノフォニック曲のような限られた音色を持つ単純な音楽とは異なり、ここでの焦点は様々な楽器、声、エフェクトを備えた複雑な音楽であり、ハーモニックや音色に富んでいる。 本研究は,非侵襲的な脳波データを用いて高品質な音楽再生を実現するための最初の試みであり,手作業による事前処理やチャネル選択を必要とせず,生データに直接エンドツーエンドのトレーニング手法を適用する。 我々は、パブリックなNMED-Tデータセットでモデルをトレーニングし、ニューラルネットワークベースのメトリクスを提案する定量的評価を行う。 また、生成されたトラックに基づいて楽曲分類を行う。 本研究は,脳波データを用いた複雑な聴覚情報再構成の実現可能性に関する知見を提供する,ニューラルデコーディングと脳-コンピュータインタフェースの継続的な研究に寄与する。

In this article, we explore the potential of using latent diffusion models, a family of powerful generative models, for the task of reconstructing naturalistic music from electroencephalogram (EEG) recordings. Unlike simpler music with limited timbres, such as MIDI-generated tunes or monophonic pieces, the focus here is on intricate music featuring a diverse array of instruments, voices, and effects, rich in harmonics and timbre. This study represents an initial foray into achieving general music reconstruction of high-quality using non-invasive EEG data, employing an end-to-end training approach directly on raw data without the need for manual pre-processing and channel selection. We train our models on the public NMED-T dataset and perform quantitative evaluation proposing neural embedding-based metrics. We additionally perform song classification based on the generated tracks. Our work contributes to the ongoing research in neural decoding and brain-computer interfaces, offering insights into the feasibility of using EEG data for complex auditory information reconstruction.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# データ拡張に関する包括的調査

A Comprehensive Survey on Data Augmentation ( http://arxiv.org/abs/2405.09591v2 )

ライセンス: Link先を確認
Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou, (参考訳) データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する一連のテクニックである。 データ拡張技術を活用することで、AIモデルは、不足したデータセットや不均衡なデータセットを含むタスクにおける適用性を大幅に向上し、AIモデルの一般化能力を大幅に向上させることができる。 既存の文献調査では、特定のモダリティデータにのみ焦点をあて、これらの手法を、複数のモダリティにまたがるデータ拡張方法の一貫した要約を欠き、既存のデータサンプルがデータ拡張プロセスをどのように提供するかの理解を制限している、モダリティ特異的およびオペレーション中心の視点から分類している。 このギャップを埋めるために、異なる共通データモダリティのためのデータ拡張技術を含む、より啓蒙的な分類法を提案する。 具体的には、データ中心の観点から、単一、ペアワイド、集団ワイドのサンプルデータ拡張手法を含むデータサンプル間の本質的な関係をいかに活用するかを検討することで、モダリティ非依存型分類法を提案する。 さらに、5つのデータモダリティにまたがるデータ拡張手法を統一的帰納的手法により分類する。

Data augmentation is a series of techniques that generate high-quality artificial data by manipulating existing data samples. By leveraging data augmentation techniques, AI models can achieve significantly improved applicability in tasks involving scarce or imbalanced datasets, thereby substantially enhancing AI models' generalization capabilities. Existing literature surveys only focus on a certain type of specific modality data, and categorize these methods from modality-specific and operation-centric perspectives, which lacks a consistent summary of data augmentation methods across multiple modalities and limits the comprehension of how existing data samples serve the data augmentation process. To bridge this gap, we propose a more enlightening taxonomy that encompasses data augmentation techniques for different common data modalities. Specifically, from a data-centric perspective, this survey proposes a modality-independent taxonomy by investigating how to take advantage of the intrinsic relationship between data samples, including single-wise, pair-wise, and population-wise sample data augmentation methods. Additionally, we categorize data augmentation methods across five data modalities through a unified inductive approach.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# SOK-Bench: 標準化されたオープンワールド知識によるビデオ推論ベンチマーク

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge ( http://arxiv.org/abs/2405.09713v2 )

ライセンス: Link先を確認
Andong Wang, Bo Wu, Sunli Chen, Zhenfang Chen, Haotian Guan, Wei-Ning Lee, Li Erran Li, Chuang Gan, (参考訳) 現実世界の視覚的コンテキストやシーンから常識的推論を学ぶことは、高度な人工知能への重要なステップである。 しかし、既存のビデオ推論ベンチマークは、主に事実的または位置的推論のために設計されており、現実世界の広い知識を伴わないため、依然として不十分である。 我々の研究は推論評価、特に動的、オープンワールド、構造化されたコンテキスト知識について深く掘り下げることを目的としています。 44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。 推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。 このようなデータセットを作成するために,LLMとMLLMの組み合わせを指示することにより,質問応答ペア,知識グラフ,合理性を自動かつスケーラブルに生成する手法を提案する。 具体的には、まず、位置決め可能な存在、関係、およびプロセスから、位置決め可能な知識を抽出し、その可視コンテンツを超えたオープンワールドの知識に拡張する。 タスク生成は、イテレーションとして複数の対話を通じて促進され、その後、設計したセルフプロンプトとデモによって修正され、洗練されます。 明確な位置の事実と暗黙のコモンセンスの両方のコーパスを用いて、関連する質問応答ペアと推論プロセスを生成し、最後に品質保証のマニュアルレビューを行う。 我々は,近年の主流である大規模視覚言語モデルをベンチマークで評価し,いくつかの洞察に富んだ結論を得た。 詳細はwww.bobbywu.com/SOKBenchのベンチマークを参照してください。

Learning commonsense reasoning from visual contexts and scenes in real-world is a crucial step toward advanced artificial intelligence. However, existing video reasoning benchmarks are still inadequate since they were mainly designed for factual or situated reasoning and rarely involve broader knowledge in the real world. Our work aims to delve deeper into reasoning evaluations, specifically within dynamic, open-world, and structured context knowledge. We propose a new benchmark (SOK-Bench), consisting of 44K questions and 10K situations with instance-level annotations depicted in the videos. The reasoning process is required to understand and apply situated knowledge and general knowledge for problem-solving. To create such a dataset, we propose an automatic and scalable generation method to generate question-answer pairs, knowledge graphs, and rationales by instructing the combinations of LLMs and MLLMs. Concretely, we first extract observable situated entities, relations, and processes from videos for situated knowledge and then extend to open-world knowledge beyond the visible content. The task generation is facilitated through multiple dialogues as iterations and subsequently corrected and refined by our designed self-promptings and demonstrations. With a corpus of both explicit situated facts and implicit commonsense, we generate associated question-answer pairs and reasoning processes, finally followed by manual reviews for quality assurance. We evaluated recent mainstream large vision-language models on the benchmark and found several insightful conclusions. For more information, please refer to our benchmark at www.bobbywu.com/SOKBench.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# SCI 3.0: 図形イベント表現のためのWebベースのスキーマキュレーションインターフェース

SCI 3.0: A Web-based Schema Curation Interface for Graphical Event Representations ( http://arxiv.org/abs/2405.09733v2 )

ライセンス: Link先を確認
Reece Suchocki, Mary Martin, Martha Palmer, Susan Brown, (参考訳) グローバルイベントの複雑さを理解するには、織布されたサブイベントのWebをナビゲートし、より大きな抽象マクロイベントフレームワークの中で最も影響の大きい要素を特定する必要がある。 この概念は、これらの抽象イベントの表現として機能する構造化イベントスキーマの作成を通じて、自然言語処理(NLP)の分野に拡張することができる。 当社のアプローチの中心にあるのは、Schema Curation Interface 3.0(SCI 3.0)です。これは、生成されたグラフeg内のイベントスキーマプロパティのリアルタイムな編集を容易にするWebアプリケーションです。

To understand the complexity of global events, one must navigate a web of interwoven sub-events, identifying those most impactful elements within the larger, abstract macro-event framework at play. This concept can be extended to the field of natural language processing (NLP) through the creation of structured event schemas which can serve as representations of these abstract events. Central to our approach is the Schema Curation Interface 3.0 (SCI 3.0), a web application that facilitates real-time editing of event schema properties within a generated graph e.g., adding, removing, or editing sub-events, entities, and relations directly through an interface.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# 意図的談話関係予測における係り受け関係の分析

An Analysis of Sentential Neighbors in Implicit Discourse Relation Prediction ( http://arxiv.org/abs/2405.09735v2 )

ライセンス: Link先を確認
Evi Judge, Reece Suchocki, Konner Syed, (参考訳) 談話関係分類は、明示的な文脈マーカーを持たない特に難しい課題である(Prasad et al , 2008)。 暗黙の関係予測への現在のアプローチは、周囲の環境のより広い文脈を無視して、2つの隣接する文のみに頼っている(Atwell et al , 2021)。 本研究では,(1)DN(Direct Neighbors),(2)EWN(Expanded Window Neighbors),(3)Part-Smart Random Neighbors(PSRNs)の3つの新しい手法を提案する。 本研究は,言論関係分類の課題において,1つの言論単位を超えて文脈を包含することは有害であることを示す。

Discourse relation classification is an especially difficult task without explicit context markers (Prasad et al., 2008). Current approaches to implicit relation prediction solely rely on two neighboring sentences being targeted, ignoring the broader context of their surrounding environments (Atwell et al., 2021). In this research, we propose three new methods in which to incorporate context in the task of sentence relation prediction: (1) Direct Neighbors (DNs), (2) Expanded Window Neighbors (EWNs), and (3) Part-Smart Random Neighbors (PSRNs). Our findings indicate that the inclusion of context beyond one discourse unit is harmful in the task of discourse relation classification.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# セマンティック・ジェスティキュレータ:セマンティックスを意識した共音声ジェスチャ合成

Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis ( http://arxiv.org/abs/2405.09814v2 )

ライセンス: Link先を確認
Zeyi Zhang, Tenglong Ao, Yuyao Zhang, Qingzhe Gao, Chuan Lin, Baoquan Chen, Libin Liu, (参考訳) 本稿では,セマンティック・ゲスティキュレータについて紹介する。セマンティック・ゲスティキュレータは,セマンティック・ジェスチャと強いセマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマン 意味的に意味のあるジェスチャーは、効果的な非言語コミュニケーションには不可欠であるが、このようなジェスチャーは、自然の人間の動きの分布の長い尾にしばしば収まる。 これらの動きの空間性は、中程度の大きさのデータセットに基づいて訓練された深層学習に基づくシステムにおいて、動きと対応する音声意味論の関係を捉えることを困難にしている。 この課題に対処するため,我々は大規模言語モデルに基づく生成的検索フレームワークを開発した。 このフレームワークは、入力音声に応答して、動作ライブラリから適切な意味ジェスチャ候補を効率的に検索する。 この動作ライブラリを構築するために,言語学の知見に基づく一般的な意味ジェスチャの包括的リストを要約し,身体と手の動きを包含する高品質な動作データセットを収集する。 また,音声のリズムに合う高品質なジェスチャーを生成可能な,音声への強力な一般化機能を備えた新しいGPTモデルも設計する。 さらに,検索したセマンティックジェスチャをGPTの出力と効率的に整合させるセマンティックアライメント機構を提案し,最終的なアニメーションの自然性を保証する。 本システムは, 包括的サンプル収集によって証明されたように, リズミカルコヒーレントかつ意味論的に明確なジェスチャーを生成する上で, 堅牢性を示す。 ユーザスタディは,結果の質と人間的類似性を検証し,我々のシステムは,意味的適切性の観点から,最先端のシステムよりも明確なマージンで優れていることを示す。

In this work, we present Semantic Gesticulator, a novel framework designed to synthesize realistic gestures accompanying speech with strong semantic correspondence. Semantically meaningful gestures are crucial for effective non-verbal communication, but such gestures often fall within the long tail of the distribution of natural human motion. The sparsity of these movements makes it challenging for deep learning-based systems, trained on moderately sized datasets, to capture the relationship between the movements and the corresponding speech semantics. To address this challenge, we develop a generative retrieval framework based on a large language model. This framework efficiently retrieves suitable semantic gesture candidates from a motion library in response to the input speech. To construct this motion library, we summarize a comprehensive list of commonly used semantic gestures based on findings in linguistics, and we collect a high-quality motion dataset encompassing both body and hand movements. We also design a novel GPT-based model with strong generalization capabilities to audio, capable of generating high-quality gestures that match the rhythm of speech. Furthermore, we propose a semantic alignment mechanism to efficiently align the retrieved semantic gestures with the GPT's output, ensuring the naturalness of the final animation. Our system demonstrates robustness in generating gestures that are rhythmically coherent and semantically explicit, as evidenced by a comprehensive collection of examples. User studies confirm the quality and human-likeness of our results, and show that our system outperforms state-of-the-art systems in terms of semantic appropriateness by a clear margin.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# 不連続および非定常データのための完全ベイズニューラルネットワークによるアクティブラーニング

Active Learning with Fully Bayesian Neural Networks for Discontinuous and Nonstationary Data ( http://arxiv.org/abs/2405.09817v2 )

ライセンス: Link先を確認
Maxim Ziatdinov, (参考訳) アクティブラーニングは、どの実験やシミュレーションを行うかを戦略的に選択することで、大きなパラメータ空間の探索を最適化する。 このアプローチの重要な構成要素は確率的代理モデル(一般にガウス過程(GP))であり、制御パラメータと対象特性の間の未知の機能的関係を近似する。 しかし、従来のGPは不連続性や非定常性を持つシステムに適用した場合にしばしば苦労し、代替モデルの探索を急がせた。 この制限は、しばしば異なる状態間の急激な遷移と、物理的性質の素早い変化によって特徴づけられる物理科学の問題に特に関係している。 FBNN(Fully Bayesian Neural Networks)は、すべてのニューラルネットワーク重みを確率的に扱い、高度なマルコフ連鎖モンテカルロ法を利用して後部分布から直接サンプリングする、有望な代用として機能する。 このアプローチにより、FBNNは、アクティブな学習環境における不確実性の下で情報的決定を行う上で不可欠な、信頼性の高い予測分布を提供することができる。 伝統的に「ビッグデータ」アプリケーションには計算コストが高すぎると考えられてきたが、多くの物理科学問題は比較的低次元のパラメータ空間において少量のデータを含む。 本稿では,FBNNの「小型データ」システムにおけるアクティブな学習課題に対するNo-U-Turn Samplerによる適合性と性能を評価し,物理科学における問題に関連するテスト機能に対する予測精度と信頼性を高める可能性を明らかにする。

Active learning optimizes the exploration of large parameter spaces by strategically selecting which experiments or simulations to conduct, thus reducing resource consumption and potentially accelerating scientific discovery. A key component of this approach is a probabilistic surrogate model, typically a Gaussian Process (GP), which approximates an unknown functional relationship between control parameters and a target property. However, conventional GPs often struggle when applied to systems with discontinuities and non-stationarities, prompting the exploration of alternative models. This limitation becomes particularly relevant in physical science problems, which are often characterized by abrupt transitions between different system states and rapid changes in physical property behavior. Fully Bayesian Neural Networks (FBNNs) serve as a promising substitute, treating all neural network weights probabilistically and leveraging advanced Markov Chain Monte Carlo techniques for direct sampling from the posterior distribution. This approach enables FBNNs to provide reliable predictive distributions, crucial for making informed decisions under uncertainty in the active learning setting. Although traditionally considered too computationally expensive for 'big data' applications, many physical sciences problems involve small amounts of data in relatively low-dimensional parameter spaces. Here, we assess the suitability and performance of FBNNs with the No-U-Turn Sampler for active learning tasks in the 'small data' regime, highlighting their potential to enhance predictive accuracy and reliability on test functions relevant to problems in physical sciences.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# RoScenes:ロードサイド認識のための大規模マルチビュー3Dデータセット

RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception ( http://arxiv.org/abs/2405.09883v2 )

ライセンス: Link先を確認
Xiaosu Zhu, Hualian Sheng, Sijia Cai, Bing Deng, Shaopeng Yang, Qiao Liang, Ken Chen, Lianli Gao, Jingkuan Song, Jieping Ye, (参考訳) 我々は、視覚中心のBird's Eye View(BEV)アプローチの開発に光を当てることを目的として、最も大きなマルチビュー道路側認識データセットであるRoScenesを紹介した。 RoScenesのハイライトは、大きな認識領域、フルシーンカバレッジ、混雑したトラフィックである。 具体的には、我々のデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m^2$で達成している。 道路側3Dラベリングのコストを低減すべく,大量のデータを効率的に収集する新しいBEV-to-3D共同アノテーションパイプラインを提案する。 その後,RoScenesにおける現行のBEV手法に関する総合的な研究を,有効性と効率の観点から整理した。 テストされた手法は、広い知覚領域と、シーン間のセンサーレイアウトの変化に悩まされ、パフォーマンスレベルが期待を下回る結果となった。 そこで本稿では,効率的な2D-3D特徴割り当てのための特徴誘導位置埋め込みを組み込んだRoBEVを提案する。 その助けにより,本手法は,検証セットに余分な計算オーバーヘッドを伴わずに,最先端の手法よりも大きなマージンで性能を向上する。 私たちのデータセットとdevkitはhttps://github.com/xiaosu-zhu/RoScenes.comで公開されます。

We introduce RoScenes, the largest multi-view roadside perception dataset, which aims to shed light on the development of vision-centric Bird's Eye View (BEV) approaches for more challenging traffic scenes. The highlights of RoScenes include significantly large perception area, full scene coverage and crowded traffic. More specifically, our dataset achieves surprising 21.13M 3D annotations within 64,000 $m^2$. To relieve the expensive costs of roadside 3D labeling, we present a novel BEV-to-3D joint annotation pipeline to efficiently collect such a large volume of data. After that, we organize a comprehensive study for current BEV methods on RoScenes in terms of effectiveness and efficiency. Tested methods suffer from the vast perception area and variation of sensor layout across scenes, resulting in performance levels falling below expectations. To this end, we propose RoBEV that incorporates feature-guided position embedding for effective 2D-3D feature assignment. With its help, our method outperforms state-of-the-art by a large margin without extra computational overhead on validation set. Our dataset and devkit will be made available at https://github.com/xiaosu-zhu/RoScenes.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# ハイパースペクトルイメージングによる特殊作物の成熟度分類のためのデュアルバンド特徴選択

Dual-band feature selection for maturity classification of specialty crops by hyperspectral imaging ( http://arxiv.org/abs/2405.09955v2 )

ライセンス: Link先を確認
Usman A. Zahidi, Krystian Łukasik, Grzegorz Cielniak, (参考訳) イチゴやトマトなどの特産作物の成熟度分類は、生産・包装現場における選別収穫・品質管理(QC)に欠かせない農業的下流活動である。 近年のDeep Learning (DL) の進歩は、成熟度分類のためのカラー画像の奨励的な結果を生み出している。 しかし、高スペクトルイメージング(HSI)は色覚に基づく手法よりも優れている。 多変量解析法と畳み込みニューラルネットワーク(CNN)は有望な結果をもたらすが、大量の入力データとそれに関連する前処理要求が実用的な応用において障害を引き起こす。 従来、所定の電磁スペクトルの反射強度は、果実の成熟度を推定するために用いられる。 本稿では,500-670nm(ピグメントバンド)やピーク位置の波長などのサブバンドのピーク反射率と,651-790nm(クロロフィルバンド)のトラフ反射率とその対応する波長が,成熟度分類に有用であることを示す特徴抽出法を提案する。 提案手法は,各予測に先立って,次元減少などの前処理を回避できるため,有効である。 機能セットは、これらの特徴をキャプチャするために設計されている。 3D-CNN, 1D-CNN, SVMで最高のSOTA法は, イチゴの90.0%, データセット上のトマトの92.0%の精度で達成できる。 提案法は, イチゴの98.0%, トマトの96.0%以上の精度でSOTAより優れていた。 また,本手法の時間効率の比較分析を行い,フルスペクトルSVM分類器で得られた最大1.16 FPSと比較して,提案手法は秒間13フレーム(FPS)で予測を行うことを示した。

The maturity classification of specialty crops such as strawberries and tomatoes is an essential agricultural downstream activity for selective harvesting and quality control (QC) at production and packaging sites. Recent advancements in Deep Learning (DL) have produced encouraging results in color images for maturity classification applications. However, hyperspectral imaging (HSI) outperforms methods based on color vision. Multivariate analysis methods and Convolutional Neural Networks (CNN) deliver promising results; however, a large amount of input data and the associated preprocessing requirements cause hindrances in practical application. Conventionally, the reflectance intensity in a given electromagnetic spectrum is employed in estimating fruit maturity. We present a feature extraction method to empirically demonstrate that the peak reflectance in subbands such as 500-670 nm (pigment band) and the wavelength of the peak position, and contrarily, the trough reflectance and its corresponding wavelength within 671-790 nm (chlorophyll band) are convenient to compute yet distinctive features for the maturity classification. The proposed feature selection method is beneficial because preprocessing, such as dimensionality reduction, is avoided before every prediction. The feature set is designed to capture these traits. The best SOTA methods, among 3D-CNN, 1D-CNN, and SVM, achieve at most 90.0 % accuracy for strawberries and 92.0 % for tomatoes on our dataset. Results show that the proposed method outperforms the SOTA as it yields an accuracy above 98.0 % in strawberry and 96.0 % in tomato classification. A comparative analysis of the time efficiency of these methods is also conducted, which shows the proposed method performs prediction at 13 Frames Per Second (FPS) compared to the maximum 1.16 FPS attained by the full-spectrum SVM classifier.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# 矛盾対話のための赤いチーム言語モデル

Red Teaming Language Models for Contradictory Dialogues ( http://arxiv.org/abs/2405.10128v2 )

ライセンス: Link先を確認
Xiaofei Wen, Bangzheng Li, Tenghao Huang, Muhao Chen, (参考訳) 現在利用可能な言語モデルのほとんどは、対話中に自己矛盾する傾向がある。 そこで本研究では,会話中の矛盾文を検出し,修正することを目的とした,新たな矛盾文処理タスクについて検討する。 この課題は文脈忠実性と対話理解の研究に触発され、矛盾の検出と理解がしばしば詳細な説明を必要とすることを示した。 我々は、会話の片側が矛盾する矛盾する対話を含むデータセットを開発する。 各対話には説明ラベルが添付され、矛盾点の位置と詳細が強調される。 このデータセットでは、矛盾する対話処理のためのRed Teamingフレームワークを提示する。 フレームワークは、対話を検出し、説明しようと試み、その後、説明を用いて既存の矛盾コンテンツを変更する。 本実験は, 矛盾する対話を検出する能力の向上と, 有効な説明を提供することを実証する。 さらに、このような対話を修正できる機能も紹介している。 本研究は,対話型AIにおける論理的不整合問題の重要性を強調した。

Most language models currently available are prone to self-contradiction during dialogues. To mitigate this issue, this study explores a novel contradictory dialogue processing task that aims to detect and modify contradictory statements in a conversation. This task is inspired by research on context faithfulness and dialogue comprehension, which have demonstrated that the detection and understanding of contradictions often necessitate detailed explanations. We develop a dataset comprising contradictory dialogues, in which one side of the conversation contradicts itself. Each dialogue is accompanied by an explanatory label that highlights the location and details of the contradiction. With this dataset, we present a Red Teaming framework for contradictory dialogue processing. The framework detects and attempts to explain the dialogue, then modifies the existing contradictory content using the explanation. Our experiments demonstrate that the framework improves the ability to detect contradictory dialogues and provides valid explanations. Additionally, it showcases distinct capabilities for modifying such dialogues. Our study highlights the importance of the logical inconsistency problem in conversational AI.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# ゼロディコード量子状態解析のためのグラフ理論フレームワーク

A Graph-Theoretical Framework to Analyse Zero Discord Quantum States ( http://arxiv.org/abs/2405.10245v2 )

ライセンス: Link先を確認
Anoopa Joshi, Parvinder Singh, Atul Kumar, (参考訳) 本稿では、正の半定性を達成するための行列とその前提条件を包括的に探求する。 この研究は、重み付きグラフの文脈における純粋量子状態に関する一連の定理を練り上げた。 本研究の主な目的は、量子不協和の研究のためのグラフ理論の枠組みを確立し、ユニタリ演算子を用いてゼロ量子不協和状態に必要な十分条件を特定することである。 本研究の目的は, 量子不協和の理解と, グラフ理論による量子情報理論への応用である。

This article comprehensively explores matrices and their prerequisites for achieving positive semidefiniteness. The study delves into a series of theorems concerning pure quantum states in the context of weighted graphs. The main objective of this study is to establish a graph-theoretic framework for the study of quantum discord and to identify the necessary and sufficient conditions for zero quantum discord states using unitary operators. This research aims to advance the understanding of quantum discord and its implications for quantum information theory with a graph-theoretic framework.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# 遺伝的プログラミングにおけるシャープネスの最小化

Sharpness-Aware Minimization in Genetic Programming ( http://arxiv.org/abs/2405.10267v2 )

ライセンス: Link先を確認
Illya Bakurov, Nathan Haut, Wolfgang Banzhaf, (参考訳) シャープネス・アウェアの最小化(SAM)は、ディープニューラルネットワークをトレーニングするための正規化手順として最近導入された。 同時に、フィットネス(または損失)機能といわゆるフィットネスシャープネスを最小化する。 後者は、解の非線形挙動の尺度として機能し、すべてのフィットネスケース全体で一様に類似した損失値を持つ近傍にある解を見つけることによって、そのように働く。 そこで本論文では,2つの簡単なアプローチを用いて解の意味的近傍を探索することにより,木遺伝プログラミング(TGP)にSAMを適用した。 プログラムツリーの摂動入力と出力に乗じて、進化中に第2の最適化基準としてシャープネスを推定し、使用することができる。 TGPに対するSAMの変異の影響をよりよく理解するために、一般化能力、複雑性、多様性、最近提案された遺伝子型-フェノタイプマッピングなど、進化過程の多くの指標を収集し、樹木の冗長性の量を調べる。 実験結果から,TGPにおけるSAM適応の2つの提案のいずれかが有効であることが確認された。 (i)人口と樹木の大きさの顕著な減少 (二)樹木の冗長性の低下。 実世界のベンチマークで評価すると、エリートの解の一般化能力は低下しない。

Sharpness-Aware Minimization (SAM) was recently introduced as a regularization procedure for training deep neural networks. It simultaneously minimizes the fitness (or loss) function and the so-called fitness sharpness. The latter serves as a measure of the nonlinear behavior of a solution and does so by finding solutions that lie in neighborhoods having uniformly similar loss values across all fitness cases. In this contribution, we adapt SAM for tree Genetic Programming (TGP) by exploring the semantic neighborhoods of solutions using two simple approaches. By capitalizing upon perturbing input and output of program trees, sharpness can be estimated and used as a second optimization criterion during the evolution. To better understand the impact of this variant of SAM on TGP, we collect numerous indicators of the evolutionary process, including generalization ability, complexity, diversity, and a recently proposed genotype-phenotype mapping to study the amount of redundancy in trees. The experimental results demonstrate that using any of the two proposed SAM adaptations in TGP allows (i) a significant reduction of tree sizes in the population and (ii) a decrease in redundancy of the trees. When assessed on real-world benchmarks, the generalization ability of the elite solutions does not deteriorate.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# 強化学習による意思決定エージェントとしての微調整大視野モデル

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning ( http://arxiv.org/abs/2405.10292v2 )

ライセンス: Link先を確認
Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Yifei Zhou, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine, (参考訳) 大きな視覚言語モデル (VLM) は、様々なシナリオにまたがる印象的な言語推論能力を示す。 しかし、この微調整パラダイムは、対話環境から多段階の目標指向タスクにおいて、最適な意思決定エージェントを効率的に学習できない可能性がある。 この課題に対処するために、強化学習(RL)を用いてVLMを微調整するアルゴリズムフレームワークを提案する。 具体的には、我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成し、VLMが最終的なテキストベースのアクションにつながる中間的推論ステップを効率的に探索できるようにする。 次に、オープンエンドテキスト出力を実行可能なアクションに解析して環境と対話し、目標指向のタスク報酬を得る。 最後に、我々のフレームワークはこれらのタスク報酬を使用して、VLM全体をRLで微調整します。 実験により,提案手法は様々なタスクにまたがるVLMエージェントの意思決定能力を向上し,GPT4-VやGeminiといった商用モデルよりも優れた7bモデルを実現することを実証した。 さらに,CoT推論は,CoT推論を除去することで全体の性能が大幅に低下するので,CoT推論が性能改善の重要な要素であることが判明した。

Large vision-language models (VLMs) fine-tuned on specialized visual instruction-following data have exhibited impressive language reasoning capabilities across various scenarios. However, this fine-tuning paradigm may not be able to efficiently learn optimal decision-making agents in multi-step goal-directed tasks from interactive environments. To address this challenge, we propose an algorithmic framework that fine-tunes VLMs with reinforcement learning (RL). Specifically, our framework provides a task description and then prompts the VLM to generate chain-of-thought (CoT) reasoning, enabling the VLM to efficiently explore intermediate reasoning steps that lead to the final text-based action. Next, the open-ended text output is parsed into an executable action to interact with the environment to obtain goal-directed task rewards. Finally, our framework uses these task rewards to fine-tune the entire VLM with RL. Empirically, we demonstrate that our proposed framework enhances the decision-making capabilities of VLM agents across various tasks, enabling 7b models to outperform commercial models such as GPT4-V or Gemini. Furthermore, we find that CoT reasoning is a crucial component for performance improvement, as removing the CoT reasoning results in a significant decrease in the overall performance of our method.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17
# Toon3D:新しい視点からカートゥーンを見る

Toon3D: Seeing Cartoons from a New Perspective ( http://arxiv.org/abs/2405.10320v2 )

ライセンス: Link先を確認
Ethan Weber, Riley Peterlinz, Rohan Mathur, Frederik Warburg, Alexei A. Efros, Angjoo Kanazawa, (参考訳) 本研究では,非幾何学的に一貫したシーンの3次元構造を復元する。 我々は漫画やアニメの手描き画像に焦点をあてる。 多くの漫画は3Dレンダリングエンジンのないアーティストによって作られており、シーンの新しいイメージは手描きである。 手描き画像は、通常、世界の忠実な表現であるが、定性的な意味でしかなく、人間がオブジェクトやシーン3Dの複数の視点を一貫して描くことは困難である。 それでも、不整合入力から簡単に3Dシーンを認識できるのです! 本研究では,2次元図面の不整合を補正し,新たなワープされた図面が互いに整合しているような,可視な3次元構造を復元する。 当社のパイプラインは,ユーザフレンドリなアノテーションツール,カメラポーズ推定,高密度構造を復元するための画像変形で構成されている。 提案手法は視点カメラモデルに従順に画像をワープし,一貫した結果を新規な視点合成再構成手法にプラグインし,これまで描いたことのない視点から漫画を体験することを可能にする。 私たちのプロジェクトページはhttps://toon3d.studio です。

In this work, we recover the underlying 3D structure of non-geometrically consistent scenes. We focus our analysis on hand-drawn images from cartoons and anime. Many cartoons are created by artists without a 3D rendering engine, which means that any new image of a scene is hand-drawn. The hand-drawn images are usually faithful representations of the world, but only in a qualitative sense, since it is difficult for humans to draw multiple perspectives of an object or scene 3D consistently. Nevertheless, people can easily perceive 3D scenes from inconsistent inputs! In this work, we correct for 2D drawing inconsistencies to recover a plausible 3D structure such that the newly warped drawings are consistent with each other. Our pipeline consists of a user-friendly annotation tool, camera pose estimation, and image deformation to recover a dense structure. Our method warps images to obey a perspective camera model, enabling our aligned results to be plugged into novel-view synthesis reconstruction methods to experience cartoons from viewpoints never drawn before. Our project page is https://toon3d.studio .
翻訳日:2024-05-20 11:46:25 公開日:2024-05-17