このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240430となっている論文です。

PDF登録状況(公開日: 20240430)

TitleAuthorsAbstract論文公表日・翻訳日
# グリーンで持続可能なモノのインターネットのためのフェデレーション学習のハーネス

Harnessing Federated Generative Learning for Green and Sustainable Internet of Things ( http://arxiv.org/abs/2407.05915v1 )

ライセンス: Link先を確認
Yuanhang Qi, M. Shamim Hossain, (参考訳) IoT(Internet of Things)におけるデバイスの急激な普及は、さまざまなドメインにわたるデータ駆動接続の変革の時代を後押ししている。 しかし、この急激な成長は、環境の持続可能性やデータのプライバシーに対する懸念を高めている。 これらの課題に対応するために、IoTエコシステム内の持続可能性と機械学習を調和させる革新的なパラダイムであるOne-shot Federated Learning (OSFL)を紹介する。 OSFLは、複数の反復的なコミュニケーションラウンドをひとつの操作にまとめることで、従来のフェデレートラーニング(FL)ワークフローに革命をもたらし、エネルギー消費、通信オーバーヘッド、レイテンシを大幅に削減する。 このブレークスルーは、生成学習技術の戦略的統合、堅牢なデータプライバシの確保、IoTデバイス間の効率的な知識共有の促進と組み合わせられている。 リソース使用量を削減することによって、OSFLは、緑と持続可能なIoTのビジョンとシームレスに一致し、デバイス寿命を効果的に拡張し、環境フットプリントを軽減します。 私たちの研究は、エネルギー効率のよいスマートシティや画期的なヘルスケアソリューションといった領域にまたがるIoTアプリケーションの景観を再構築する、OSFLの変革的な可能性を強調しています。 この貢献は、より責任があり、持続可能で、技術的に先進的な未来への重要な一歩である。

The rapid proliferation of devices in the Internet of Things (IoT) has ushered in a transformative era of data-driven connectivity across various domains. However, this exponential growth has raised pressing concerns about environmental sustainability and data privacy. In response to these challenges, this paper introduces One-shot Federated Learning (OSFL), an innovative paradigm that harmonizes sustainability and machine learning within IoT ecosystems. OSFL revolutionizes the traditional Federated Learning (FL) workflow by condensing multiple iterative communication rounds into a single operation, thus significantly reducing energy consumption, communication overhead, and latency. This breakthrough is coupled with the strategic integration of generative learning techniques, ensuring robust data privacy while promoting efficient knowledge sharing among IoT devices. By curtailing resource utilization, OSFL aligns seamlessly with the vision of green and sustainable IoT, effectively extending device lifespans and mitigating their environmental footprint. Our research underscores the transformative potential of OSFL, poised to reshape the landscape of IoT applications across domains such as energy-efficient smart cities and groundbreaking healthcare solutions. This contribution marks a pivotal step towards a more responsible, sustainable, and technologically advanced future.
翻訳日:2024-07-22 14:19:18 公開日:2024-04-30
# 培養肉の人工知能と機械学習応用

Artificial intelligence and machine learning applications for cultured meat ( http://arxiv.org/abs/2407.09982v1 )

ライセンス: Link先を確認
Michael E. Todhunter, Sheikh Jubair, Ruchika Verma, Rikard Saqe, Kevin Shen, Breanna Duffy, (参考訳) 養殖肉は、環境、倫理、健康への影響を減らした補完的な肉産業を提供する可能性がある。 しかし、時間と資源集約的な研究と開発を必要とする大きな技術的課題が残っている。 機械学習は、実験を合理化し、最適な結果を予測し、実験時間と資源を減らすことによって、培養肉技術を促進する可能性がある。 しかし、培養肉における機械学習の利用は、その初期段階にある。 このレビューでは、培養肉における機械学習の使用について現在利用可能な作業について取り上げ、今後の可能性を探る。 培養肉の研究と開発において,細胞株の確立,細胞培養メディアのデザイン,顕微鏡と画像解析,バイオプロセッシングと食品加工の最適化の4つの主要な領域に対処する。 本総説は, 培養肉と機械学習の両研究者が, 培養肉と機械学習の交点における研究機会を特定するために必要な基盤を提供することを目的とする。

Cultured meat has the potential to provide a complementary meat industry with reduced environmental, ethical, and health impacts. However, major technological challenges remain which require time- and resource-intensive research and development efforts. Machine learning has the potential to accelerate cultured meat technology by streamlining experiments, predicting optimal results, and reducing experimentation time and resources. However, the use of machine learning in cultured meat is in its infancy. This review covers the work available to date on the use of machine learning in cultured meat and explores future possibilities. We address four major areas of cultured meat research and development: establishing cell lines, cell culture media design, microscopy and image analysis, and bioprocessing and food processing optimization. This review aims to provide the foundation necessary for both cultured meat and machine learning scientists to identify research opportunities at the intersection between cultured meat and machine learning.
翻訳日:2024-07-22 12:59:07 公開日:2024-04-30
# ソーシャルワークにおけるAIの再構築 : 実践にテクノロジーを取り入れる実践者の視点から

Reimagining AI in Social Work: Practitioner Perspectives on Incorporating Technology in their Practice ( http://arxiv.org/abs/2407.10244v1 )

ライセンス: Link先を確認
Katie Wassal, Carolyn Ashurst, Jiri Hron, Miri Zilka, (参考訳) 英国では、全国政府と地方政府の両方でテストおよび展開されているAIツールの数と種類が急増している。 多くの進行中で計画されている将来の発展を考えると、ソーシャルケアにおけるAIの現状をレビューし、振り返ってみるのに時間がかかります。 私たちは、過去と現在のAIシステムの経験と意見について、英国を拠点とするソーシャルワークプロフェッショナルと半構造化されたインタビューを行うことで、そうします。 私たちの目標は、実践者がどんなシステムを開発し、どのように扱うかを理解することです。 私たちは、すべてのインタビュアーが、ソーシャルケアにおけるテクノロジーの圧倒的に否定的な経験、特にアルゴリズムによる意思決定システムへの全会一致の回避、さらには管理業務に費やす時間を短縮できるAIアプリケーションへの強い関心を持っていたことに気付きました。 本研究は,参加型デザインへのコミットメントや,実践者の信頼を取り戻す必要性など,具体的な推奨事項を提示する。

There has been a surge in the number and type of AI tools being tested and deployed within both national and local government in the UK, including within the social care sector. Given the many ongoing and planned future developments, the time is ripe to review and reflect on the state of AI in social care. We do so by conducting semi-structured interviews with UK-based social work professionals about their experiences and opinions of past and current AI systems. Our aim is to understand what systems would practitioners like to see developed and how. We find that all our interviewees had overwhelmingly negative past experiences of technology in social care, unanimous aversion to algorithmic decision systems in particular, but also strong interest in AI applications that could allow them to spend less time on administrative tasks. In response to our findings, we offer a series of concrete recommendations, which include commitment to participatory design, as well as the necessity of regaining practitioner trust.
翻訳日:2024-07-22 12:59:07 公開日:2024-04-30
# C-Suiteにおける人工知能の戦略的統合 : チーフAIオフィサーの役割

Strategic Integration of Artificial Intelligence in the C-Suite: The Role of the Chief AI Officer ( http://arxiv.org/abs/2407.10247v1 )

ライセンス: Link先を確認
Marc Schmitt, (参考訳) 人工知能(AI)を企業戦略に統合することは、デジタル時代の競争上の優位性を維持することを目指す組織にとって、重要な焦点となっている。 AIがビジネスオペレーションを再開し、イノベーションを推進していくにつれ、これらの変化を効果的に管理するための専門的なリーダーシップの必要性がますます顕在化している。 本稿では、CスーツにおけるチーフAIオフィサー(CAIO)の役割を探求し、AI戦略、統合、ガバナンスを成功させるためにこのポジションの必要性を強調します。 私は、AI経済、AI組織、AI時代の競争という3つの重要な領域における現在のトレンドに基づいて、将来のシナリオを分析します。 これらの調査は、トップマネジメントチームへのCAIOの導入を正当化する先駆者(環境、構造、戦略的要因)を特定する基盤となる。 このことは、CAIOの役割とAIリーダーシップの広範な影響を総合的に調査する段階に設定されている。 本稿では、経営レベルでのAIの戦略的統合の根拠を提供し、組織内のチーフAIオフィサーの役割を検討することによって、AIリーダーシップに関する議論を進める。

The integration of Artificial Intelligence (AI) into corporate strategy has become a pivotal focus for organizations aiming to maintain a competitive advantage in the digital age. As AI reshapes business operations and drives innovation, the need for specialized leadership to effectively manage these changes becomes increasingly apparent. In this paper, I explore the role of the Chief AI Officer (CAIO) within the C-suite, emphasizing the necessity of this position for successful AI strategy, integration, and governance. I analyze future scenarios based on current trends in three key areas: the AI Economy, AI Organization, and Competition in the Age of AI. These explorations lay the foundation for identifying the antecedents (environmental, structural, and strategic factors) that justify the inclusion of a CAIO in top management teams. This sets the stage for a comprehensive examination of the CAIO's role and the broader implications of AI leadership. This paper advances the discussion on AI leadership by providing a rationale for the strategic integration of AI at the executive level and examining the role of the Chief AI Officer within organizations.
翻訳日:2024-07-22 12:59:07 公開日:2024-04-30
# 生成的文化的危機の端に

At the edge of a generative cultural precipice ( http://arxiv.org/abs/2406.08739v1 )

ライセンス: Link先を確認
Diego Porres, Alex Gomez-Villa, (参考訳) NFTやDALLE2やStable Diffusionのような大規模な生成モデルが公開されているため、アーティストは彼らの仕事が脅かされ、盗まれているのを見てきた。 アーティストはDeviantart、Pixiv、Artstationなどのオンラインプラットフォームでアートを共有することに頼っているが、多くのアーティストは自分の作品の共有を遅らせたり、過去の作品をそのまま削除した。 テキスト・ツー・イメージ(T2I)生成モデルは、人為的なコンテンツを用いてトレーニングされ、それらが生成できるスタイルとテーマをより良くガイドする。 それでも、オンラインで見つかったデータが人間ではなく機械によって生成される傾向が続くとすれば、文化に大きな影響を与えることになる。 生成モデルに関する最近の研究に触発されて、私たちは注意深い物語を語り、生成モデルが生成したコンテンツのみにのみ訓練されたパスを継続するかどうかを視覚芸術に何が起こるのかを尋ねたいと考えています。

Since NFTs and large generative models (such as DALLE2 and Stable Diffusion) have been publicly available, artists have seen their jobs threatened and stolen. While artists depend on sharing their art on online platforms such as Deviantart, Pixiv, and Artstation, many slowed down sharing their work or downright removed their past work therein, especially if these platforms fail to provide certain guarantees regarding the copyright of their uploaded work. Text-to-image (T2I) generative models are trained using human-produced content to better guide the style and themes they can produce. Still, if the trend continues where data found online is generated by a machine instead of a human, this will have vast repercussions in culture. Inspired by recent work in generative models, we wish to tell a cautionary tale and ask what will happen to the visual arts if generative models continue on the path to be (eventually) trained solely on generated content.
翻訳日:2024-07-01 07:50:27 公開日:2024-04-30
# マルチクラスOODと異常検出のためのクロスレベル特徴誘導デコーダを用いた特徴浄化変換器

Feature Purified Transformer With Cross-level Feature Guiding Decoder For Multi-class OOD and Anomaly Deteciton ( http://arxiv.org/abs/2406.15396v1 )

ライセンス: Link先を確認
Jerry Chun-Wei Lin, Pi-Wei Chen, Chao-Chun Chen, (参考訳) レコンストラクションネットワークは、ラベル付き異常データから独立しているため、教師なし異常とアウト・オブ・ディストリビューション(OOD)検出に広く利用されている。 しかし、マルチクラスデータセットでは、異常検出の有効性は、モデルが一般化した再構築能力によってしばしば損なわれ、これにより、付加されたカテゴリによる正規性の境界に異常がブレンドされ、検出精度が低下する。 本稿では,FPM(Feature Purification Module)とCFGデコーダの2つの革新的なモジュールを組み込んだFUTUREGフレームワークを紹介する。 FPMは遅延空間内の正規性境界を制約し、異常な特徴を効果的にフィルタリングする一方、CFGデコーダはフィルタされた特徴の再構築を誘導するために層単位でエンコーダ表現を使用する。 これらのモジュールは、異常の復元誤差を高め、正常サンプルの高品質な再構成を保証する。 以上の結果から,FUTUREGは多クラスOOD設定における最先端性能を実現し,産業的異常検出のシナリオにおいて競争力を維持していることが明らかとなった。

Reconstruction networks are prevalently used in unsupervised anomaly and Out-of-Distribution (OOD) detection due to their independence from labeled anomaly data. However, in multi-class datasets, the effectiveness of anomaly detection is often compromised by the models' generalized reconstruction capabilities, which allow anomalies to blend within the expanded boundaries of normality resulting from the added categories, thereby reducing detection accuracy. We introduce the FUTUREG framework, which incorporates two innovative modules: the Feature Purification Module (FPM) and the CFG Decoder. The FPM constrains the normality boundary within the latent space to effectively filter out anomalous features, while the CFG Decoder uses layer-wise encoder representations to guide the reconstruction of filtered features, preserving fine-grained details. Together, these modules enhance the reconstruction error for anomalies, ensuring high-quality reconstructions for normal samples. Our results demonstrate that FUTUREG achieves state-of-the-art performance in multi-class OOD settings and remains competitive in industrial anomaly detection scenarios.
翻訳日:2024-07-01 07:11:08 公開日:2024-04-30
# 人間のフィードバックによる主観的内容記述の促進

Enhancement of Subjective Content Descriptions by using Human Feedback ( http://arxiv.org/abs/2405.15786v1 )

ライセンス: Link先を確認
Magnus Bender, Tanya Braun, Ralf Möller, Marcel Gehrke, (参考訳) 情報検索サービスを提供するエージェントは、文書のコーパスで動作することができる。 コーパス内の文書には、主観的コンテンツ記述(SCD)のようなアノテーションが含まれてもよい。 各SCDはコーパスの複数の文に関連付けられ、互いに関係がある。 エージェントは、ユーザから提供されるクエリに応答して、SCDを使用して回答を生成する。 しかし、エージェントが使用するSCDは、他のユーザの主観的な視点を反映する可能性がある。 したがって、SCDはエージェントのユーザに対する認識と正確に一致しないため、答えはエージェントのユーザによって失敗とみなされる可能性がある。 単純で非常にコストのかかるアプローチは、ユーザに対して、すべてのSCDを自分自身で完全に作成するように求めます。 本稿では,人間によるSCDのリレーショナルリレーショナルリレーショナルリレーショナルリレーショナルエンハンスメントであるReFrESHを提案する。 エージェントのユーザは、エージェントに欠陥回答に関するフィードバックを与えることができる。 このフィードバックは、ReFrESHによってSCDを漸進的に更新するために使用される。 しかし、人間のフィードバックは必ずしも明白ではない。 そこで本稿では,フィードバックの取り入れ方やSCDの更新時期についても検討する。 さらに、SCDは人間のフィードバックで更新できるので、ユーザーは必要に応じてさらに特定のSCDを作成できる。

An agent providing an information retrieval service may work with a corpus of text documents. The documents in the corpus may contain annotations such as Subjective Content Descriptions (SCD) -- additional data associated with different sentences of the documents. Each SCD is associated with multiple sentences of the corpus and has relations among each other. The agent uses the SCDs to create its answers in response to queries supplied by users. However, the SCD the agent uses might reflect the subjective perspective of another user. Hence, answers may be considered faulty by an agent's user, because the SCDs may not exactly match the perceptions of an agent's user. A naive and very costly approach would be to ask each user to completely create all the SCD themselves. To use existing knowledge, this paper presents ReFrESH, an approach for Relation-preserving Feedback-reliant Enhancement of SCDs by Humans. An agent's user can give feedback about faulty answers to the agent. This feedback is then used by ReFrESH to update the SCDs incrementally. However, human feedback is not always unambiguous. Therefore, this paper additionally presents an approach to decide how to incorporate the feedback and when to update the SCDs. Altogether, SCDs can be updated with human feedback, allowing users to create even more specific SCDs for their needs.
翻訳日:2024-06-02 14:39:48 公開日:2024-04-30
# SU(3)離散部分群に対する原始量子ゲート:$Σ(36\times3)$

Primitive Quantum Gates for an SU(3) Discrete Subgroup: $Σ(36\times3)$ ( http://arxiv.org/abs/2405.05973v1 )

ライセンス: Link先を確認
Erik J. Gustafson, Yao Ji, Henry Lamm, Edison M. Murairi, Shuchen Zhu, (参考訳) 我々は、108要素の$\Sigma(36\times3)$群のデジタル量子シミュレーションのための原始ゲートセットを構築する。 量子シミュレーションのために$SU(3)$の非アーベル結晶のような部分群が構築されたのはこれが初めてである。 ゲージリンクレジスタと必要なプリミティブ -- 反転ゲート、グループ乗算ゲート、トレースゲート、および$\Sigma(36\times3)$ Fourier変換 -- は、8量子符号化と不均一3量子レジスタと2量子レジスタの両方に対して提示される。 後者では、任意のユニタリをこのアーキテクチャに分解する特別なコンパイラが開発された。

We construct the primitive gate set for the digital quantum simulation of the 108-element $\Sigma(36\times3)$ group. This is the first time a nonabelian crystal-like subgroup of $SU(3)$ has been constructed for quantum simulation. The gauge link registers and necessary primitives -- the inversion gate, the group multiplication gate, the trace gate, and the $\Sigma(36\times3)$ Fourier transform -- are presented for both an eight-qubit encoding and a heterogeneous three-qutrit plus two-qubit register. For the latter, a specialized compiler was developed for decomposing arbitrary unitaries onto this architecture.
翻訳日:2024-05-27 03:32:54 公開日:2024-04-30
# HCCに必要なのは、人間中心のコンピューティングのアライメント(アライメント)

HCC Is All You Need: Alignment-The Sensible Kind Anyway-Is Just Human-Centered Computing ( http://arxiv.org/abs/2405.03699v1 )

ライセンス: Link先を確認
Eric Gilbert, (参考訳) この記事では、AIアライメントは人間中心コンピューティングの一種である、と論じる。

This article argues that AI Alignment is a type of Human-Centered Computing.
翻訳日:2024-05-12 15:50:33 公開日:2024-04-30
# 水位深度推定の批判的評価:機械学習における課題と可能性

A critical appraisal of water table depth estimation: Challenges and opportunities within machine learning ( http://arxiv.org/abs/2405.04579v1 )

ライセンス: Link先を確認
Joseph Janssen, Ardalan Tootchi, Ali A. Ameli, (参考訳) 水テーブル深さ(WTD)の微細な空間パターンは、生態学、水文学、人類学的システムを含む地下水依存システムの力学を知らせることができる。 一般に、静的WTDの大規模(例えば大陸またはグローバル)空間マップは、物理ベース(PB)モデルまたは機械学習ベース(ML)モデルを用いてシミュレートすることができる。 我々は、XGBoostアルゴリズムと2000万以上のWTDの実・代用観測データを用いて、WTDの3つの微細分解能(500m)MLシミュレーションを構築した。 3つのMLモデルは、WTDのドライバとWTDの間の既知の物理的関係を利用して制約され、WTDのリアルおよびプロキシ観測を逐次追加することで訓練された。 物理的に制約されたMLモデルのブラックボックスを解釈し、地下水水文学で利用可能な文献と比較する。 広範(ピクセル単位での)評価により、我々のモデルはWTDの3つのPBシミュレーションと比較して、北米のほとんどのエコリージョンにおけるWTDの目に見えない実・代用的な観測をより正確に予測できることを示した。 しかし、大規模WTD推定は解決された問題には程遠いといえます。 我々は、偏見と信頼できない観測データ、物理式の不特定、機械学習モデルの過度な柔軟性、WTDのMLやPBシミュレーションに対する我々のコミュニティの信頼度があまりにも高く、WTDの正確なシミュレーションが文学、特に乾燥した高標高の風景にはまだ存在しないことを理由にしている。 最終的に、水文地質学者がWTD推定をどのように進めるかを決めるのに役立つ将来の方向性について、特に機械学習の適用に焦点を当てて、徹底的に議論する。

Fine-resolution spatial patterns of water table depth (WTD) can inform the dynamics of groundwater-dependent systems, including ecological, hydrological, and anthropogenic systems. Generally, a large-scale (e.g., continental or global) spatial map of static WTD can be simulated using either physically-based (PB) or machine learning-based (ML) models. We construct three fine-resolution (500 m) ML simulations of WTD, using the XGBoost algorithm and more than 20 million real and proxy observations of WTD, across the United States and Canada. The three ML models were constrained using known physical relations between WTD's drivers and WTD and were trained by sequentially adding real and proxy observations of WTD. We interpret the black box of our physically constrained ML models and compare it against available literature in groundwater hydrology. Through an extensive (pixel-by-pixel) evaluation, we demonstrate that our models can more accurately predict unseen real and proxy observations of WTD across most of North America's ecoregions compared to three available PB simulations of WTD. However, we still argue that large-scale WTD estimation is far from being a solved problem. We reason that due to biased and untrustworthy observational data, the misspecification of physically-based equations, and the over-flexibility of machine learning models, our community's confidence in ML or PB simulations of WTD is far too high and verifiably accurate simulations of WTD do not yet exist in the literature, particularly in arid high-elevation landscapes. Ultimately, we thoroughly discuss future directions that may help hydrogeologists decide how to proceed with WTD estimations, with a particular focus on the application of machine learning.
翻訳日:2024-05-12 15:40:48 公開日:2024-04-30
# フェイクニュース検出のための大規模言語モデルエージェント

Large Language Model Agent for Fake News Detection ( http://arxiv.org/abs/2405.01593v1 )

ライセンス: Link先を確認
Xinyi Li, Yongfeng Zhang, Edward C. Malthouse, (参考訳) 現在のデジタル時代において、オンラインプラットフォーム上での誤報の急速な拡散は、社会的幸福、公的な信頼、民主的なプロセスに重大な課題をもたらし、批判的な意思決定と世論に影響を与える。 これらの課題に対処するためには、自動フェイクニュース検出機構の必要性が高まっている。 事前訓練された大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにまたがる例外的な機能を示し、ニュースクレームの検証の可能性を探究している。 LLMを非アジェンティックな方法で使用するのではなく、単一ショットで直接のプロンプトに基づいて応答を生成することで、偽ニュース検出にLLMを利用するエージェントアプローチであるFactAgentを導入する。 FactAgentは、構造化ワークフローに従って、モデルトレーニングなしでニュースクレームの検証において、人間の専門家の振る舞いをエミュレートすることを可能にする。 このワークフローは、ニュースの正確性チェックの複雑なタスクを複数のサブステップに分割します。 ワークフローの最終ステップでは、LLMはワークフロー全体のすべての発見を統合して、ニュースクレームの正確性を決定する。 手動による検証と比較すると、FactAgentは効率を向上する。 実験的研究は、FactAgentがいかなるトレーニングプロセスも必要とせずにクレームの検証に有効であることを実証した。 さらに、FactAgentはワークフローの各ステップと最終決定期間中に透過的な説明を提供し、エンドユーザに対する偽ニュース検出の推論プロセスに関する洞察を提供する。 FactAgentは高度に適応可能で、LLMがワークフロー内で活用できるツールの簡単なアップデートと、ドメイン知識を使用したワークフロー自体のアップデートが可能になる。 この適応性は、FactAgentの様々なドメインにわたるニュース検証への応用を可能にする。

In the current digital era, the rapid spread of misinformation on online platforms presents significant challenges to societal well-being, public trust, and democratic processes, influencing critical decision making and public opinion. To address these challenges, there is a growing need for automated fake news detection mechanisms. Pre-trained large language models (LLMs) have demonstrated exceptional capabilities across various natural language processing (NLP) tasks, prompting exploration into their potential for verifying news claims. Instead of employing LLMs in a non-agentic way, where LLMs generate responses based on direct prompts in a single shot, our work introduces FactAgent, an agentic approach of utilizing LLMs for fake news detection. FactAgent enables LLMs to emulate human expert behavior in verifying news claims without any model training, following a structured workflow. This workflow breaks down the complex task of news veracity checking into multiple sub-steps, where LLMs complete simple tasks using their internal knowledge or external tools. At the final step of the workflow, LLMs integrate all findings throughout the workflow to determine the news claim's veracity. Compared to manual human verification, FactAgent offers enhanced efficiency. Experimental studies demonstrate the effectiveness of FactAgent in verifying claims without the need for any training process. Moreover, FactAgent provides transparent explanations at each step of the workflow and during final decision-making, offering insights into the reasoning process of fake news detection for end users. FactAgent is highly adaptable, allowing for straightforward updates to its tools that LLMs can leverage within the workflow, as well as updates to the workflow itself using domain knowledge. This adaptability enables FactAgent's application to news verification across various domains.
翻訳日:2024-05-06 16:58:34 公開日:2024-04-30
# 自己拡張とコントラスト学習によるソーシャルメディアテキストからの疾患検出の改善

Improving Disease Detection from Social Media Text via Self-Augmentation and Contrastive Learning ( http://arxiv.org/abs/2405.01597v1 )

ライセンス: Link先を確認
Pervaiz Iqbal Khan, Andreas Dengel, Sheraz Ahmed, (参考訳) ソーシャルメディアから病気を検出するには、公衆衛生モニタリングや疾病拡散検出など様々な応用がある。 言語モデル(LM)はこの領域で有望な性能を示したが、識別表現を洗練するための研究は現在も続いている。 本稿では,この課題に対処するために,コントラスト学習(CL)と言語モデリングを統合した新しい手法を提案する。 提案手法では,モデルに隠された表現を自己表現で拡張する自己拡張手法を提案する。 従来のLMである第1枝は与えられたデータに特有の特徴を学習し、第2枝は第1枝から拡張表現を取り入れて一般化を促進する。 CLはこれらの表現をさらに洗練し、オリジナルのバージョンと拡張バージョンのペアを近くに引き寄せ、他のサンプルを遠ざけている。 各種疾患に関連するソーシャルメディア投稿を含む2進・複数ラベル・複数クラス分類タスクを含む3つのNLPデータセットについて,本手法の評価を行った。 提案手法は従来の微調整法よりも顕著に改善され,F1スコアはベースライン手法に比べて2.48%向上し,最先端手法よりも2.1%向上した。

Detecting diseases from social media has diverse applications, such as public health monitoring and disease spread detection. While language models (LMs) have shown promising performance in this domain, there remains ongoing research aimed at refining their discriminating representations. In this paper, we propose a novel method that integrates Contrastive Learning (CL) with language modeling to address this challenge. Our approach introduces a self-augmentation method, wherein hidden representations of the model are augmented with their own representations. This method comprises two branches: the first branch, a traditional LM, learns features specific to the given data, while the second branch incorporates augmented representations from the first branch to encourage generalization. CL further refines these representations by pulling pairs of original and augmented versions closer while pushing other samples away. We evaluate our method on three NLP datasets encompassing binary, multi-label, and multi-class classification tasks involving social media posts related to various diseases. Our approach demonstrates notable improvements over traditional fine-tuning methods, achieving up to a 2.48% increase in F1-score compared to baseline approaches and a 2.1% enhancement over state-of-the-art methods.
翻訳日:2024-05-06 16:58:34 公開日:2024-04-30
# 知識蒸留はなぜ機能するのか : 意識と忠実さのメカニズムを再考する

Why does Knowledge Distillation Work? Rethink its Attention and Fidelity Mechanism ( http://arxiv.org/abs/2405.00739v1 )

ライセンス: Link先を確認
Chenqi Guo, Shiwei Zhong, Xiaofeng Liu, Qianli Feng, Yinglong Ma, (参考訳) 知識蒸留(KD)は本当に機能するのか? 従来の知恵は、学生が教師に完璧に模倣されることが望まれる知識伝達手順であると見なしていた。 しかし、パラドックス的な研究は、教師の行動を忠実に再現することは、生徒の一般化を一貫して改善するものではなく、その潜在的な原因について疑問を呈していることを示している。 このギャップを克服して,教師の多様な注意が,KDセットアップの忠実度低下を犠牲にして,学生の一般化に寄与する,という仮説を立てた。 データ強化の強度を増大させることで、教師モデル間の注意関係のIoU(Intersection over Union)が減少し、学生の過度な適合が減少し、忠実度が低下することが明らかとなった。 我々は,この低忠実度現象を,KD訓練時の病理学よりも基礎的な特徴として提案する。 このことは、より強力なデータ拡張が、分散教師のアンサンブルと低学生と教師の相互情報によって提供されるより広い視点を育み、一般化性能の恩恵をもたらすことを示唆している。 これらの知見は、KDにおける低忠実性現象のメカニズムを明らかにする。 そこで本研究では,教師の注意力の多様性の向上と,教師と生徒の模倣行動の低減を両立させることにより,生徒モデルのパフォーマンスを最適化する新たな視点を提供する。

Does Knowledge Distillation (KD) really work? Conventional wisdom viewed it as a knowledge transfer procedure where a perfect mimicry of the student to its teacher is desired. However, paradoxical studies indicate that closely replicating the teacher's behavior does not consistently improve student generalization, posing questions on its possible causes. Confronted with this gap, we hypothesize that diverse attentions in teachers contribute to better student generalization at the expense of reduced fidelity in ensemble KD setups. By increasing data augmentation strengths, our key findings reveal a decrease in the Intersection over Union (IoU) of attentions between teacher models, leading to reduced student overfitting and decreased fidelity. We propose this low-fidelity phenomenon as an underlying characteristic rather than a pathology when training KD. This suggests that stronger data augmentation fosters a broader perspective provided by the divergent teacher ensemble and lower student-teacher mutual information, benefiting generalization performance. These insights clarify the mechanism on low-fidelity phenomenon in KD. Thus, we offer new perspectives on optimizing student model performance, by emphasizing increased diversity in teacher attentions and reduced mimicry behavior between teachers and student.
翻訳日:2024-05-03 20:52:21 公開日:2024-04-30
# コントラストビジョン・ランゲージ事前学習におけるキャプション多様性のモデル化

Modeling Caption Diversity in Contrastive Vision-Language Pretraining ( http://arxiv.org/abs/2405.00740v1 )

ライセンス: Link先を確認
Samuel Lavoie, Polina Kirichenko, Mark Ibrahim, Mahmoud Assran, Andrew Gordon Wildon, Aaron Courville, Nicolas Ballas, (参考訳) 画像のキャプションには数千の方法があります。 一方、CLIP(Contrastive Language Pretraining)は、イメージとそのキャプションを単一のベクタにマッピングすることで機能する。 本稿では,画像にマッチするキャプションの多様性をモデル化したLlip, Latent Language Image Pretrainingを紹介する。 Llipの視覚エンコーダは、テキストから派生した情報を条件付けして最終的な表現に混合された視覚的特徴のセットを出力する。 Llipは大規模エンコーダでも,CLIPやSigLIPのような非コンテクスト化されたベースラインよりも優れた性能を示す。 Llipは、平均2.9%のゼロショット分類ベンチマークをViT-G/14エンコーダで改善している。 具体的には、ImageNetでゼロショットのトップ-1の精度が83.5%に達し、同様の大きさのCLIPを1.4%上回っている。 また,MS-COCOのゼロショット検索を6.0%改善した。 提案手法によって導入されたコンポーネントの包括的分析を行い,Llipがよりリッチな視覚表現につながることを示す。

There are a thousand ways to caption an image. Contrastive Language Pretraining (CLIP) on the other hand, works by mapping an image and its caption to a single vector -- limiting how well CLIP-like models can represent the diverse ways to describe an image. In this work, we introduce Llip, Latent Language Image Pretraining, which models the diversity of captions that could match an image. Llip's vision encoder outputs a set of visual features that are mixed into a final representation by conditioning on information derived from the text. We show that Llip outperforms non-contextualized baselines like CLIP and SigLIP on a variety of tasks even with large-scale encoders. Llip improves zero-shot classification by an average of 2.9% zero-shot classification benchmarks with a ViT-G/14 encoder. Specifically, Llip attains a zero-shot top-1 accuracy of 83.5% on ImageNet outperforming a similarly sized CLIP by 1.4%. We also demonstrate improvement on zero-shot retrieval on MS-COCO by 6.0%. We provide a comprehensive analysis of the components introduced by the method and demonstrate that Llip leads to richer visual representations.
翻訳日:2024-05-03 20:52:21 公開日:2024-04-30
# 脳波信号と機械学習技術を用いたパーキンソン病の診断 : 総合的研究

Diagnosis of Parkinson's Disease Using EEG Signals and Machine Learning Techniques: A Comprehensive Study ( http://arxiv.org/abs/2405.00741v1 )

ライセンス: Link先を確認
Maryam Allahbakhshi, Aylar Sadri, Seyed Omid Shahdi, (参考訳) パーキンソン病は、効果的な介入のために早期診断を必要とする広範な神経変性疾患である。 本稿では,パーキンソン病の脳波信号を解析し,SVM(Support Vector Machine)分類モデルを用いて診断する革新的な手法を提案する。 本研究は,診断精度と信頼性を高めるための新しい貢献を提示する。 本手法は,脳波信号解析技術と機械学習手法の総合的なレビューを取り入れたものである。 近年の研究では,パーキンソン病の診断に最適化された高度なSVMモデルを構築した。 提案手法は,最先端の特徴工学,広範ハイパーパラメータチューニング,カーネル選択を活用し,診断精度の向上だけでなく,臨床医と研究者の双方に配慮したモデル解釈性も重視する。 さらに、データプライバシやバイアスなど、医療機械学習における倫理的な懸念にも注意が払われている。 パーキンソン病患者からの脳波記録と健常度制御を含む多種多様なデータセットを用いて,本手法の性能評価を行い,従来の手法と比較して診断精度が有意に向上したことを示す。 そこで本研究では,パーキンソン病をヒト脳波信号から診断するための革新的なSVMベースのアプローチを提案する。 IEEEフレームワークと以前の研究に基づいて、その新規性は、実用的な医療アプリケーションに対する解釈可能性と倫理的考慮を保ちながら、診断精度を高める能力にある。 これらの進歩は初期のパーキンソン病の検出と管理に革命をもたらすことを約束し、最終的には患者の成果と生活の質の向上に寄与した。

Parkinson's disease is a widespread neurodegenerative condition necessitating early diagnosis for effective intervention. This paper introduces an innovative method for diagnosing Parkinson's disease through the analysis of human EEG signals, employing a Support Vector Machine (SVM) classification model. this research presents novel contributions to enhance diagnostic accuracy and reliability. Our approach incorporates a comprehensive review of EEG signal analysis techniques and machine learning methods. Drawing from recent studies, we have engineered an advanced SVM-based model optimized for Parkinson's disease diagnosis. Utilizing cutting-edge feature engineering, extensive hyperparameter tuning, and kernel selection, our method achieves not only heightened diagnostic accuracy but also emphasizes model interpretability, catering to both clinicians and researchers. Moreover, ethical concerns in healthcare machine learning, such as data privacy and biases, are conscientiously addressed. We assess our method's performance through experiments on a diverse dataset comprising EEG recordings from Parkinson's disease patients and healthy controls, demonstrating significantly improved diagnostic accuracy compared to conventional techniques. In conclusion, this paper introduces an innovative SVM-based approach for diagnosing Parkinson's disease from human EEG signals. Building upon the IEEE framework and previous research, its novelty lies in the capacity to enhance diagnostic accuracy while upholding interpretability and ethical considerations for practical healthcare applications. These advances promise to revolutionize early Parkinson's disease detection and management, ultimately contributing to enhanced patient outcomes and quality of life.
翻訳日:2024-05-03 20:52:21 公開日:2024-04-30
# サイバー攻撃に対するパーソナライズによるEV需要予測のためのフェデレーショングラフ学習

Federated Graph Learning for EV Charging Demand Forecasting with Personalization Against Cyberattacks ( http://arxiv.org/abs/2405.00742v1 )

ライセンス: Link先を確認
Yi Li, Renyou Xie, Chaojie Li, Yi Wang, Zhaoyang Dong, (参考訳) 電気自動車(EV)の充電需要予測におけるサイバーセキュリティリスクの軽減は、集合EV充電の安全運用、電力グリッドの安定性、コスト効率のよいインフラ拡張において重要な役割を担っている。 しかし、既存の手法は、データのプライバシー問題とサイバー攻撃への感受性に悩まされるか、異なるステーション間の空間的相関を考慮できないかのいずれかである。 これらの課題に対処するために、複数の充電ステーションを含む連合グラフ学習手法を提案し、様々なステーション間の空間的相関を捉え、潜在的攻撃に対する堅牢性を高めながら、需要予測のためのより一般化されたディープラーニングモデルを協調的に訓練する。 まず、モデルの性能向上のために、グラフニューラルネットワーク(GNN)モデルを用いて、異なる充電ステーション間の地理的相関をフェデレートした方法で特徴付ける。 次に、フェデレーション設定におけるロバスト性を確保し、データ不均一性に対処するため、クライアント毎にパーソナライズされたモデルを集約するグローバルアテンション機構を利用したメッセージパッシングを提案する。 第3に、サイバー攻撃に関して、悪意のあるクライアントや望ましくない攻撃からの潜在的な脅威を軽減するために、特別なクレジットカードベースの機能が設計されている。 提案手法の予測精度とロバスト性を示すために,様々なディープラーニング技術とフェデレーション学習手法を用いて,パブリックEV充電データセットの大規模な実験を行った。

Mitigating cybersecurity risk in electric vehicle (EV) charging demand forecasting plays a crucial role in the safe operation of collective EV chargings, the stability of the power grid, and the cost-effective infrastructure expansion. However, existing methods either suffer from the data privacy issue and the susceptibility to cyberattacks or fail to consider the spatial correlation among different stations. To address these challenges, a federated graph learning approach involving multiple charging stations is proposed to collaboratively train a more generalized deep learning model for demand forecasting while capturing spatial correlations among various stations and enhancing robustness against potential attacks. Firstly, for better model performance, a Graph Neural Network (GNN) model is leveraged to characterize the geographic correlation among different charging stations in a federated manner. Secondly, to ensure robustness and deal with the data heterogeneity in a federated setting, a message passing that utilizes a global attention mechanism to aggregate personalized models for each client is proposed. Thirdly, by concerning cyberattacks, a special credit-based function is designed to mitigate potential threats from malicious clients or unwanted attacks. Extensive experiments on a public EV charging dataset are conducted using various deep learning techniques and federated learning methods to demonstrate the prediction accuracy and robustness of the proposed approach.
翻訳日:2024-05-03 20:52:21 公開日:2024-04-30
# 学習ネットワークのウェイトダイナミクスについて

On the weight dynamics of learning networks ( http://arxiv.org/abs/2405.00743v1 )

ライセンス: Link先を確認
Nahal Sharafi, Christoph Martin, Sarah Hallerberg, (参考訳) ニューラルネットワークは、機械学習や人工知能のさまざまな問題に対処するための、広く採用されているツールとなっている。 このコントリビューションでは、局所安定性解析の数学的枠組みを用いて、フィードフォワードニューラルネットワークの学習力学をより深く理解する。 そこで,3層ネットワークにおける回帰処理の学習力学のタンジェント演算子に対する方程式を導出する。 結果は任意の数のノードと任意のアクティベーション関数の選択に対して有効である。 その結果を回帰課題を学習するネットワークに適用し、安定性指標が最終訓練損失とどのように関係するかを数値的に検討する。 初期条件とアクティベーション関数の選択は異なるが, 有限時間リアプノフ指数や同変リアプノフベクトルを監視することにより, 最終的なトレーニング損失を予測することが可能であることを示す。

Neural networks have become a widely adopted tool for tackling a variety of problems in machine learning and artificial intelligence. In this contribution we use the mathematical framework of local stability analysis to gain a deeper understanding of the learning dynamics of feed forward neural networks. Therefore, we derive equations for the tangent operator of the learning dynamics of three-layer networks learning regression tasks. The results are valid for an arbitrary numbers of nodes and arbitrary choices of activation functions. Applying the results to a network learning a regression task, we investigate numerically, how stability indicators relate to the final training-loss. Although the specific results vary with different choices of initial conditions and activation functions, we demonstrate that it is possible to predict the final training loss, by monitoring finite-time Lyapunov exponents or covariant Lyapunov vectors during the training process.
翻訳日:2024-05-03 20:52:21 公開日:2024-04-30
# ツイスト多重フレーバーシュウィンガーモデルにおけるフラクトンの非摂動的シグネチャ

Non-perturbative signatures of fractons in the twisted multi-flavor Schwinger Model ( http://arxiv.org/abs/2405.00745v1 )

ライセンス: Link先を確認
Pavel P. Popov, Valentin Kasper, Maciej Lewenstein, Erez Zohar, Paolo Stornati, Philipp Hauke, (参考訳) 非自明な位相を持つゲージ場配置は、アベリアおよび非アベリアゲージ理論の物理学に重大な結果をもたらす。 時間とともに、フラクトンと呼ばれる分数的なトポロジカル電荷を持つゲージ場の構成の存在についての議論が集まっている。 ゲージ理論の基底状態特性は、経路積分におけるフラクトンの存在によって劇的に変化する。 しかし、そのようなフラクトンの起源を理解することは、通常は半古典的な議論に制限される。 ここでは、量子電磁力学のマルチフレーバーシュウィンガーモデルを用いて、フラクトンが強い相関を持つ多体系に持続することを示す。 詳細な数値テンソル-ネットワーク解析により、既に存在する量子シミュレーションデバイスで実装可能な大きさの格子モデルでも強力なフラクトンシグネチャが見つかる。 我々の研究は、ゲージ理論の非自明なトポロジーが非摂動的レジームの挑戦においていかに持続するかに光を当て、テーブルトップ実験でそれを証明するための道筋を示している。

Gauge-field configurations with non-trivial topology have profound consequences for the physics of Abelian and non-Abelian gauge theories. Over time, arguments have been gathering for the existence of gauge-field configurations with fractional topological charge, called fractons. Ground-state properties of gauge theories can drastically change in presence of fractons in the path integral. However, understanding the origin of such fractons is usually restricted to semi-classical argumentation. Here, we show that fractons persist in strongly correlated many-body systems, using the multiflavor Schwinger model of quantum electrodynamics as a paradigm example. Through detailed numerical tensor-network analysis, we find strong fracton signatures even in highly discretized lattice models, at sizes that are implementable on already existing quantum-simulation devices. Our work sheds light on how the non-trivial topology of gauge theories persists in challenging non-perturbative regimes, and it shows a path forward to probing it in table-top experiments.
翻訳日:2024-05-03 20:52:21 公開日:2024-04-30
# ループ強化学習のためのサブ最適データの活用

Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning ( http://arxiv.org/abs/2405.00746v1 )

ライセンス: Link先を確認
Calarina Muslimani, Matthew E. Taylor, (参考訳) 有用な強化学習(RL)エージェントを作成するために、ステップゼロはタスクのニュアンスをキャプチャする適切な報酬関数を設計する。 しかし、報酬エンジニアリングは困難で時間を要するプロセスです。 代わりに、HitL(Human-in-the-loop) RLは、エージェントが人間のフィードバックから報酬関数を学習できるようにする。 近年の成功にもかかわらず、HitL RL法の多くは報酬関数を学習するために多くの人間の相互作用を必要とする。 本稿では,HitL RL手法のフィードバック効率を改善するために,SDP(Sub-Optimal Data Pre-Training)を提案する。 SDPでは、ゼロの報酬ですべての低品質データを擬似ラベル付けすることから始めます。 このプロセスを通じて、報酬モデルを事前訓練するための無料の報酬ラベルを得る。 この事前学習フェーズは、報酬モデルに学習の出発点を与え、低品質の移行が、実際のフィードバックなしに、低い報酬を持つべきであることを識別する。 シミュレーション教師による広範囲な実験を通じて,9つのロボット操作および移動タスクに対して,SDPが最先端(SOTA)HitL RLアルゴリズムによる競争性能を大幅に向上または達成できることを実証した。

To create useful reinforcement learning (RL) agents, step zero is to design a suitable reward function that captures the nuances of the task. However, reward engineering can be a difficult and time-consuming process. Instead, human-in-the-loop (HitL) RL allows agents to learn reward functions from human feedback. Despite recent successes, many of the HitL RL methods still require numerous human interactions to learn successful reward functions. To improve the feedback efficiency of HitL RL methods (i.e., require less feedback), this paper introduces Sub-optimal Data Pre-training, SDP, an approach that leverages reward-free, sub-optimal data to improve scalar- and preference-based HitL RL algorithms. In SDP, we start by pseudo-labeling all low-quality data with rewards of zero. Through this process, we obtain free reward labels to pre-train our reward model. This pre-training phase provides the reward model a head start in learning, whereby it can identify that low-quality transitions should have a low reward, all without any actual feedback. Through extensive experiments with a simulated teacher, we demonstrate that SDP can significantly improve or achieve competitive performance with state-of-the-art (SOTA) HitL RL algorithms across nine robotic manipulation and locomotion tasks.
翻訳日:2024-05-03 20:52:21 公開日:2024-04-30
# ソフトな選好最適化: 言語モデルをエキスパート分布に適応させる

Soft Preference Optimization: Aligning Language Models to Expert Distributions ( http://arxiv.org/abs/2405.00747v1 )

ライセンス: Link先を確認
Arsalan Sharifnassab, Sina Ghiassian, Saber Salehkaleybar, Surya Kanoria, Dale Schuurmans, (参考訳) 本稿では,Large Language Models (LLMs) などの生成モデルと人間の好みを協調する手法であるSoft Preference Optimization (SPO) を提案する。 SPOは、選好データセットに制限するのではなく、モデル全体の出力分布をまたいだ正規化項に選好損失を統合する自然損失関数を通じて、選好データセット上でのモデル出力を直接最適化する。 SPO は既存の報酬モデルの仮定を必要としないが,Bradley-Terry (BT) モデルでは,アルゴリズムパラメータである Softmax Exponent を通じて分布の「ソフトネス」を調整可能なスケールされた報酬のソフトマックスに収束することを示した。 本稿では,SPOの方法論,理論的基礎,および単純さ,計算効率,アライメント精度における比較優位性について紹介する。

We propose Soft Preference Optimization (SPO), a method for aligning generative models, such as Large Language Models (LLMs), with human preferences, without the need for a reward model. SPO optimizes model outputs directly over a preference dataset through a natural loss function that integrates preference loss with a regularization term across the model's entire output distribution rather than limiting it to the preference dataset. Although SPO does not require the assumption of an existing underlying reward model, we demonstrate that, under the Bradley-Terry (BT) model assumption, it converges to a softmax of scaled rewards, with the distribution's "softness" adjustable via the softmax exponent, an algorithm parameter. We showcase SPO's methodology, its theoretical foundation, and its comparative advantages in simplicity, computational efficiency, and alignment precision.
翻訳日:2024-05-03 20:52:21 公開日:2024-04-30
# DiaQ: 効率的な状態ベクトル量子シミュレーション

DiaQ: Efficient State-Vector Quantum Simulation ( http://arxiv.org/abs/2405.01250v1 )

ライセンス: Link先を確認
Srikar Chundury, Jiajia Li, In-Saeng Suh, Frank Mueller, (参考訳) NISQ(Noisy Intermediate Scale Quantum)コンピューティングの現在において、量子システムの効率的なデジタルシミュレーションは量子アルゴリズムの開発、検証、検証において重要な役割を担っている。 しかし、これらのシミュレーションにおけるスパーシリティの分析はほとんど未解明のままである。 本稿では,量子回路に内在する親密度パターンについて,新しい観察結果を示す。 量子特異性を利用した新しいスパース行列フォーマットであるDiaQを導入し,シミュレーション性能を向上する。 コントリビューションは、マルチコアアクセラレーションとSIMDベクトル化のためのOpenMPとC++で実装された数値ライブラリlibdiaqの開発に拡張され、デジタル量子シミュレーションに不可欠な数学的カーネルが特徴である。 さらに、状態ベクトルシミュレータであるSV-SimとDiaQを統合し、様々な量子回路(例えば、GHZ-28は26.67%、QFT-29は32.72%、FrontierはSIMDベクトル化)で大幅な性能向上を実現した。 SupermarQとQASMBenchのベンチマークで行った評価は、DiaQが高効率な量子シミュレーションを実現するための重要なステップであることを示している。

In the current era of Noisy Intermediate Scale Quantum (NISQ) computing, efficient digital simulation of quantum systems holds significant importance for quantum algorithm development, verification and validation. However, analysis of sparsity within these simulations remains largely unexplored. In this paper, we present a novel observation regarding the prevalent sparsity patterns inherent in quantum circuits. We introduce DiaQ, a new sparse matrix format tailored to exploit this quantum-specific sparsity, thereby enhancing simulation performance. Our contribution extends to the development of libdiaq, a numerical library implemented in C++ with OpenMP for multi-core acceleration and SIMD vectorization, featuring essential mathematical kernels for digital quantum simulations. Furthermore, we integrate DiaQ with SV-Sim, a state vector simulator, yielding substantial performance improvements across various quantum circuits (e.g., ~26.67% for GHZ-28 and ~32.72% for QFT-29 with multi-core parallelization and SIMD vectorization on Frontier). Evaluations conducted on benchmarks from SupermarQ and QASMBench demonstrate that DiaQ represents a significant step towards achieving highly efficient quantum simulations.
翻訳日:2024-05-03 16:34:40 公開日:2024-04-30
# JolteonとDitto:非同期フォールバックによるネットワーク適応型効率コンセンサス

Jolteon and Ditto: Network-Adaptive Efficient Consensus with Asynchronous Fallback ( http://arxiv.org/abs/2106.10362v3 )

ライセンス: Link先を確認
Rati Gelashvili, Lefteris Kokoris-Kogias, Alberto Sonnino, Alexander Spiegelman, Zhuolun Xiang, (参考訳) 既存の委員会ベースのByzantineステートマシンレプリケーション(SMR)プロトコルは、一般的に運用ブロックチェーンにデプロイされるが、明確なトレードオフに直面している。 既存の線形プロトコルは、最悪の場合、漸近的な二次コストを持つため、このトレードオフは保証されていないと我々は信じている。 我々は,ビザンチンのSMRプロトコルであるDittoを設計する。このプロトコルは,ハッピーパス(それぞれ線形および二次)の最適な通信と,非同期およびDDoS攻撃下でのプログレス保証である。 我々は、部分同期プロトコルのビュー同期化を、余分な漸近的なコストで非同期のフォールバック機構に置き換えることで、これを実現する。 具体的には、最先端の線形プロトコルであるHotStuffから始まり、徐々にDittoを構築します。 別個のコントリビューションと中間ステップとして,標準的な3チェーンHotStuffのレイテンシを低減するために,二次ビュー変更機構を活用するHotStuff,Jolteonの2チェーンバージョンを設計する。 すべてのシステムを実装し,実験的に評価する。 特に、Jolteonのコミットレイテンシは、さまざまなシステムサイズでHotStuffを200~300ms上回る。 さらに、Dittoはネットワークに適応し、障害条件下でのJolteonよりも優れたパフォーマンスを提供し、フォールトレス条件下でのVABA(最先端の非同期プロトコル)よりも優れたパフォーマンスを提供する。 このことは、堅牢性と効率性のトレードオフを破ることが実用性の範囲にあることを証明しています。

Existing committee-based Byzantine state machine replication (SMR) protocols, typically deployed in production blockchains, face a clear trade-off: (1) they either achieve linear communication cost in the happy path, but sacrifice liveness during periods of asynchrony, or (2) they are robust (progress with probability one) but pay quadratic communication cost. We believe this trade-off is unwarranted since existing linear protocols still have asymptotic quadratic cost in the worst case. We design Ditto, a Byzantine SMR protocol that enjoys the best of both worlds: optimal communication on and off the happy path (linear and quadratic, respectively) and progress guarantee under asynchrony and DDoS attacks. We achieve this by replacing the view-synchronization of partially synchronous protocols with an asynchronous fallback mechanism at no extra asymptotic cost. Specifically, we start from HotStuff, a state-of-the-art linear protocol, and gradually build Ditto. As a separate contribution and an intermediate step, we design a 2-chain version of HotStuff, Jolteon, which leverages a quadratic view-change mechanism to reduce the latency of the standard 3-chain HotStuff. We implement and experimentally evaluate all our systems. Notably, Jolteon's commit latency outperforms HotStuff by 200-300ms with varying system size. Additionally, Ditto adapts to the network and provides better performance than Jolteon under faulty conditions and better performance than VABA (a state-of-the-art asynchronous protocol) under faultless conditions. This proves our case that breaking the robustness-efficiency trade-off is in the realm of practicality.
翻訳日:2024-05-02 20:57:20 公開日:2024-04-30
# 任意次元における非ブロックバンド理論のアメーバ定式化

Amoeba Formulation of Non-Bloch Band Theory in Arbitrary Dimensions ( http://arxiv.org/abs/2212.11743v3 )

ライセンス: Link先を確認
Hong-Yi Wang, Fei Song, Zhong Wang, (参考訳) 非エルミートスキン効果は、非エルミート系のエネルギーバンドを劇的に再認識し、通常のブロッホ・バンド理論がその特性として根本的に不十分であることを意味する。 ブリルアンゾーンの概念が一般化された非ブロックバンド理論は、1つの空間次元における非エルミート系の研究に広く応用されている。 しかし、高次元への一般化は困難である。 ここでは,アメーバと呼ばれる自然幾何学的対象に基づいて,任意の空間次元における非エルミタンスキン効果と非ブロッホバンド理論の定式化を開発する。 我々の理論は、1次元を超えて非エルミート帯域を研究するための一般的な枠組みを提供する。 エネルギースペクトル、固有状態プロファイル、一般化されたブリルアンゾーンを含む非エルミートバンドの重要な量は、このアプローチから効率的に得ることができる。

The non-Hermitian skin effect dramatically reshapes the energy bands of non-Hermitian systems, meaning that the usual Bloch band theory is fundamentally inadequate as their characterization. The non-Bloch band theory, in which the concept of Brillouin zone is generalized, has been widely applied to investigate non-Hermitian systems in one spatial dimension. However, its generalization to higher dimensions has been challenging. Here, we develop a formulation of the non-Hermitian skin effect and non-Bloch band theory in arbitrary spatial dimensions, which is based on a natural geometrical object known as the amoeba. Our theory provides a general framework for studying non-Hermitian bands beyond one dimension. Key quantities of non-Hermitian bands, including the energy spectrum, eigenstates profiles, and the generalized Brillouin zone, can be efficiently obtained from this approach.
翻訳日:2024-05-02 20:50:17 公開日:2024-04-30
# 疾患スライドを用いた大腸癌診断のための解釈型機械学習システム

An interpretable machine learning system for colorectal cancer diagnosis from pathology slides ( http://arxiv.org/abs/2301.02608v2 )

ライセンス: Link先を確認
Pedro C. Neto, Diana Montezuma, Sara P. Oliveira, Domingos Oliveira, João Fraga, Ana Monteiro, João Monteiro, Liliana Ribeiro, Sofia Gonçalves, Stefan Reinhard, Inti Zlobec, Isabel M. Pinto, Jaime S. Cardoso, (参考訳) 病理学の実践に影響を及ぼす大きな変革を考慮し,全スライディング画像(WSI)から大腸癌を診断するスケーラブルな人工知能(AI)システムの開発を目指した。 そこで本研究では,弱いラベルから学習するディープラーニング(DL)システム,パフォーマンスを損なうことなくトレーニングサンプル数を6倍に削減するサンプリング戦略,完全注釈付きサンプルの小さなサブセットを活用するアプローチ,説明可能な予測,アクティブな学習特徴,並列化を備えたプロトタイプを提案する。 本研究は, 約10,500個のWSIを用いて, 最大規模のWSI検体を用いて実施した。 これらのサンプルのうち900は試験サンプルである。 さらに,提案手法のロバスト性は,2つの外部データセット(TCGAとPAIP)と,提案したプロトタイプから直接収集したサンプルのデータセットを用いて評価する。 提案手法は,ディスプラシアの重症度に基づくクラスであるパッチベースのタイルについて予測し,その情報を用いてスライド全体を分類する。 空間的アノテーションを通じて、病理学者が導入したドメイン知識を活用するための解釈可能な混合スーパービジョンスキームを用いて訓練される。 混合スーパービジョン方式により、知的サンプリング戦略は、性能を損なうことなく、複数の異なるシナリオで効果的に評価できる。 内部データセットでは93.44%の精度を示し、正(低グレードと高グレード)と非ネオプラスチック試料0.996の感度を示した。 外部試験では、TCGAは84.91%、感度0.996の最も難しいデータセットである。

Considering the profound transformation affecting pathology practice, we aimed to develop a scalable artificial intelligence (AI) system to diagnose colorectal cancer from whole-slide images (WSI). For this, we propose a deep learning (DL) system that learns from weak labels, a sampling strategy that reduces the number of training samples by a factor of six without compromising performance, an approach to leverage a small subset of fully annotated samples, and a prototype with explainable predictions, active learning features and parallelisation. Noting some problems in the literature, this study is conducted with one of the largest WSI colorectal samples dataset with approximately 10,500 WSIs. Of these samples, 900 are testing samples. Furthermore, the robustness of the proposed method is assessed with two additional external datasets (TCGA and PAIP) and a dataset of samples collected directly from the proposed prototype. Our proposed method predicts, for the patch-based tiles, a class based on the severity of the dysplasia and uses that information to classify the whole slide. It is trained with an interpretable mixed-supervision scheme to leverage the domain knowledge introduced by pathologists through spatial annotations. The mixed-supervision scheme allowed for an intelligent sampling strategy effectively evaluated in several different scenarios without compromising the performance. On the internal dataset, the method shows an accuracy of 93.44% and a sensitivity between positive (low-grade and high-grade dysplasia) and non-neoplastic samples of 0.996. On the external test samples varied with TCGA being the most challenging dataset with an overall accuracy of 84.91% and a sensitivity of 0.996.
翻訳日:2024-05-02 20:50:17 公開日:2024-04-30
# MediTab: データ統合、強化、リファインメントによる医療用タブラルデータ予測器のスケーリング

MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation, Enrichment, and Refinement ( http://arxiv.org/abs/2305.12081v4 )

ライセンス: Link先を確認
Zifeng Wang, Chufan Gao, Cao Xiao, Jimeng Sun, (参考訳) 患者の健康リスク予測などの医療応用において,タブラルデータ予測が採用されている。 しかし、既存の手法は通常、データエンジニアリングの重要性を見越しながら、アルゴリズム設計を中心に展開する。 医用表状データセットは、異なるソース間で大きな異質性を示すことが多く、ソースごとにサンプルサイズが制限されている。 このように、従来の予測子は、推論中にさまざまな表のデータセットを一般化するのに苦労する、手動でキュレートされた小さなデータセットでトレーニングされることが多い。 本稿では,医療用表型データ予測器(MediTab)を様々な特徴を持つ様々な表型入力に拡張することを提案する。 この方法は、大きな言語モデル(LLM)を活用するデータエンジンを使用して、表のサンプルを統合して、異なるスキーマを持つテーブル間の障壁を克服する。 パイプラインを使用して、ドメイン外のデータをターゲットタスクにアライメントする。 拡張されたトレーニングデータにより、トレーニング済みのMediTabは、微調整なしで、ドメイン内の任意の表型入力を推測することが可能となり、それぞれ7つの患者結果予測データセットの平均ランク1.57と1.00、トライアル結果予測データセット3という、教師付きベースラインよりも大幅に改善される。 教師付きXGBoostモデルでは2つの予測タスクで平均8.9%と17.2%を上回っている。

Tabular data prediction has been employed in medical applications such as patient health risk prediction. However, existing methods usually revolve around the algorithm design while overlooking the significance of data engineering. Medical tabular datasets frequently exhibit significant heterogeneity across different sources, with limited sample sizes per source. As such, previous predictors are often trained on manually curated small datasets that struggle to generalize across different tabular datasets during inference. This paper proposes to scale medical tabular data predictors (MediTab) to various tabular inputs with varying features. The method uses a data engine that leverages large language models (LLMs) to consolidate tabular samples to overcome the barrier across tables with distinct schema. It also aligns out-domain data with the target task using a "learn, annotate, and refinement" pipeline. The expanded training data then enables the pre-trained MediTab to infer for arbitrary tabular input in the domain without fine-tuning, resulting in significant improvements over supervised baselines: it reaches an average ranking of 1.57 and 1.00 on 7 patient outcome prediction datasets and 3 trial outcome prediction datasets, respectively. In addition, MediTab exhibits impressive zero-shot performances: it outperforms supervised XGBoost models by 8.9% and 17.2% on average in two prediction tasks, respectively.
翻訳日:2024-05-02 20:40:32 公開日:2024-04-30
# ポリプセグメンテーション改善のためのTransRUPNet

TransRUPNet for Improved Polyp Segmentation ( http://arxiv.org/abs/2306.02176v3 )

ライセンス: Link先を確認
Debesh Jha, Nikhil Kumar Tomar, Debayan Bhattacharya, Ulas Bagci, (参考訳) 大腸癌は世界中で最も多いがんの1つである。 早期発見による前立腺ポリープの除去は大腸癌への進行を防ぐために不可欠である。 本研究では,トランスフォーマーをベースとしたResidual Upsampling Network (TransRUPNet) を開発した。 提案アーキテクチャであるTransRUPNetは、3つのエンコーダとデコーダで構成されるエンコーダ・デコーダネットワークである。 画像サイズが256\times256$の場合,提案手法は平均ダイス係数スコアが0.7786,平均インターセクションが0.7210で1秒あたり47.07フレームの優れたリアルタイム動作速度を実現する。 公開されているPolypGenデータセットの結果から、TransRUPNetは、分散データセットの高精度を維持しながら、リアルタイムのフィードバックを提供できることが示唆されている。 さらに,提案手法の一般化可能性を示すとともに,既存の手法と比較して分布外データセットの性能を著しく向上させることを示した。 私たちのネットワークのソースコードはhttps://github.com/DebeshJha/TransRUPNet.comで公開されています。

Colorectal cancer is among the most common cause of cancer worldwide. Removal of precancerous polyps through early detection is essential to prevent them from progressing to colon cancer. We develop an advanced deep learning-based architecture, Transformer based Residual Upsampling Network (TransRUPNet) for automatic and real-time polyp segmentation. The proposed architecture, TransRUPNet, is an encoder-decoder network consisting of three encoder and decoder blocks with additional upsampling blocks at the end of the network. With the image size of $256\times256$, the proposed method achieves an excellent real-time operation speed of 47.07 frames per second with an average mean dice coefficient score of 0.7786 and mean Intersection over Union of 0.7210 on the out-of-distribution polyp datasets. The results on the publicly available PolypGen dataset suggest that TransRUPNet can give real-time feedback while retaining high accuracy for in-distribution datasets. Furthermore, we demonstrate the generalizability of the proposed method by showing that it significantly improves performance on out-of-distribution datasets compared to the existing methods. The source code of our network is available at https://github.com/DebeshJha/TransRUPNet.
翻訳日:2024-05-02 20:40:32 公開日:2024-04-30
# ソフトウェア保護研究における評価手法

Evaluation Methodologies in Software Protection Research ( http://arxiv.org/abs/2307.07300v2 )

ライセンス: Link先を確認
Bjorn De Sutter, Sebastian Schrittwieser, Bart Coppens, Patrick Kochberger, (参考訳) Man-at-the-end (MATE)攻撃者は、攻撃されたソフトウェアが実行されるシステムを完全にコントロールし、ソフトウェアに埋め込まれた資産の機密性や完全性を壊そうとする。 企業もマルウェアの作者も、このような攻撃を防ごうとしている。 これにより、攻撃者とディフェンダーの間の武器競争が加速し、多くの異なる保護と分析方法が生み出された。 しかし、MATE攻撃者は様々な方法で目標を達成することができ、広く受け入れられている評価手法が存在しないため、保護の強さを測定することは依然として困難である。 本調査は,MATE攻撃に対する主要な保護クラスである難読化に関する論文の評価手法を体系的にレビューした。 571紙について, 試料の種類, サイズ, 試料処理, 測定結果など, 評価手法の113側面を収集した。 我々は,学術的状態が保護と分析の両方をどのように評価するかについて,詳細な知見を提供する。 要約すると、より良い評価手法の必要性は明らかである。 我々は、MATE攻撃の文脈における研究結果の妥当性、再現性、解釈の脅威を表すソフトウェア保護評価の9つの課題を特定し、今後の研究論文で報告された評価を改善するための具体的な勧告を策定する。

Man-at-the-end (MATE) attackers have full control over the system on which the attacked software runs, and try to break the confidentiality or integrity of assets embedded in the software. Both companies and malware authors want to prevent such attacks. This has driven an arms race between attackers and defenders, resulting in a plethora of different protection and analysis methods. However, it remains difficult to measure the strength of protections because MATE attackers can reach their goals in many different ways and a universally accepted evaluation methodology does not exist. This survey systematically reviews the evaluation methodologies of papers on obfuscation, a major class of protections against MATE attacks. For 571 papers, we collected 113 aspects of their evaluation methodologies, ranging from sample set types and sizes, over sample treatment, to performed measurements. We provide detailed insights into how the academic state of the art evaluates both the protections and analyses thereon. In summary, there is a clear need for better evaluation methodologies. We identify nine challenges for software protection evaluations, which represent threats to the validity, reproducibility, and interpretation of research results in the context of MATE attacks and formulate a number of concrete recommendations for improving the evaluations reported in future research papers.
翻訳日:2024-05-02 20:30:46 公開日:2024-04-30
# 医用画像登録における深層学習に関する調査:新しい技術、不確実性、評価指標など

A survey on deep learning in medical image registration: new technologies, uncertainty, evaluation metrics, and beyond ( http://arxiv.org/abs/2307.15615v3 )

ライセンス: Link先を確認
Junyu Chen, Yihao Liu, Shuwen Wei, Zhangxing Bian, Shalini Subramanian, Aaron Carass, Jerry L. Prince, Yong Du, (参考訳) 深層学習技術は、過去10年間に医療画像登録の分野を劇的に変えてきた。 回帰ベースのネットワークやU-Netベースのネットワークといった初期の開発は、画像登録におけるディープラーニングの基礎を確立した。 その後、類似度測定、変形正則化、ネットワークアーキテクチャ、不確実性推定など、深層学習に基づく登録の様々な面で進展が見られた。 これらの進歩は、画像登録の分野を豊かにしただけでなく、アトラス構築、マルチアトラスセグメンテーション、モーション推定、および2D-3Dの登録など、幅広いタスクにも応用した。 本稿では,ディープラーニングによる画像登録の最近の進歩を概観する。 まず、深層学習に基づく画像登録のコアコンセプトの簡潔な紹介から始める。 そして、革新的なネットワークアーキテクチャ、登録に特有の損失関数、および登録の不確実性を推定する方法を探索する。 さらに,登録タスクにおけるディープラーニングモデルの性能を評価するための適切な評価指標について検討する。 最後に,これらの新しい手法の医用画像への応用を強調し,深層学習による画像登録の今後の展望について考察する。

Deep learning technologies have dramatically reshaped the field of medical image registration over the past decade. The initial developments, such as regression-based and U-Net-based networks, established the foundation for deep learning in image registration. Subsequent progress has been made in various aspects of deep learning-based registration, including similarity measures, deformation regularizations, network architectures, and uncertainty estimation. These advancements have not only enriched the field of image registration but have also facilitated its application in a wide range of tasks, including atlas construction, multi-atlas segmentation, motion estimation, and 2D-3D registration. In this paper, we present a comprehensive overview of the most recent advancements in deep learning-based image registration. We begin with a concise introduction to the core concepts of deep learning-based image registration. Then, we delve into innovative network architectures, loss functions specific to registration, and methods for estimating registration uncertainty. Additionally, this paper explores appropriate evaluation metrics for assessing the performance of deep learning models in registration tasks. Finally, we highlight the practical applications of these novel techniques in medical imaging and discuss the future prospects of deep learning-based image registration.
翻訳日:2024-05-02 20:30:46 公開日:2024-04-30
# Retroformer: ポリシーグラディエント最適化を備えたレトロスペクティブ型大規模言語エージェント

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization ( http://arxiv.org/abs/2308.02151v2 )

ライセンス: Link先を確認
Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese, (参考訳) 近年,大規模言語モデル (LLM) が,人からの問い合わせに応答するのではなく,客観的な多段階タスクを単独で実行可能な自律型言語エージェントに拡張される,強力な新しいトレンドが出現している。 しかし、既存の言語エージェントのほとんどは、環境固有の報酬を使って最適化されていない。 一部のエージェントは、言葉によるフィードバックを通じて反復的な洗練を可能にするが、報酬からの勾配に基づく学習と互換性のある方法では、推論や計画を行わない。 本稿では,言語エージェントが環境フィードバックからポリシーグラデーションを通じて自動的に調整するリフレクションモデルを学習することで,大規模言語エージェントの強化のための原則的フレームワークを提案する。 特に,提案するエージェントアーキテクチャは,複数の環境やタスクにわたる報酬から学習し,事前失敗した試みの根本原因を要約し,行動計画を提案することで,言語エージェントのプロンプトを洗練させる事前学習言語モデルを微調整する。 様々なタスクに対する実験結果から,言語エージェントは時間とともに改善し,環境からの勾配を適切に活用しないベースラインをかなり上回っていることがわかった。 これは、ポリシー勾配の最適化を使用して言語エージェントを改善することを示し、私たちの作業が最初の1つだと信じており、エージェントアーキテクチャの他のモデルを最適化してエージェントのパフォーマンスを時間とともに向上させることに期待できる。

Recent months have seen the emergence of a powerful new trend in which large language models (LLMs) are augmented to become autonomous language agents capable of performing objective oriented multi-step tasks on their own, rather than merely responding to queries from human users. Most existing language agents, however, are not optimized using environment-specific rewards. Although some agents enable iterative refinement through verbal feedback, they do not reason and plan in ways that are compatible with gradient-based learning from rewards. This paper introduces a principled framework for reinforcing large language agents by learning a retrospective model, which automatically tunes the language agent prompts from environment feedback through policy gradient. Specifically, our proposed agent architecture learns from rewards across multiple environments and tasks, for fine-tuning a pre-trained language model which refines the language agent prompt by summarizing the root cause of prior failed attempts and proposing action plans. Experimental results on various tasks demonstrate that the language agents improve over time and that our approach considerably outperforms baselines that do not properly leverage gradients from the environment. This demonstrates that using policy gradient optimization to improve language agents, for which we believe our work is one of the first, seems promising and can be applied to optimize other models in the agent architecture to enhance agent performances over time.
翻訳日:2024-05-02 20:30:46 公開日:2024-04-30
# PARL:人間フィードバックからの強化学習における政策整合性統合フレームワーク

PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2308.02585v3 )

ライセンス: Link先を確認
Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Dinesh Manocha, Huazheng Wang, Mengdi Wang, Furong Huang, (参考訳) 本稿では,近年強調されている強化学習におけるポリシーアライメントの重要課題に,実用性や嗜好に基づくフィードバックを用いて対処するために,新しい統合された二段階最適化ベースのフレームワークである \textsf{PARL} を提案する。 政策トラジェクトリによって生成されたデータに対するアライメント目標の依存性の正確な特徴が欠如しているため、政策アライメントを解決するための現在のアルゴリズム設計における大きなギャップを同定する。 この欠点は、現代アルゴリズムで観測される準最適性能に寄与する。 提案手法は, 上位アライメント目標(リワード設計)の分布を, 下位最適変数(設計報酬の最適ポリシー)によって明示的にパラメータ化することにより, これらの課題に対処する。 興味深いことに、最適化の観点から、我々の定式化は、上位の目的の確率性が下位の変数に依存するような、新しい確率的二段階問題に繋がる。 この研究は、RLHFを2段階最適化問題として初めて定式化し、既存のRLHFの定式化を一般化し、RLHFの定式化における既存の分布シフト問題に対処する。 } RLにおけるアライメント問題の解法における定式化の有効性を示すため, PARL問題の解法としてtextsf{A-PARL} というアルゴリズムを考案し, 次数$\mathcal{O}(1/T)$の複雑性境界を定式化した。 提案手法は,DeepmindコントロールスイートとMeta Worldタスクの大規模環境におけるポリシーアライメントの大幅な改善(必要サンプルの63倍まで)を示すことにより,RLのアライメント問題に対処できることを示す。

We present a novel unified bilevel optimization-based framework, \textsf{PARL}, formulated to address the recently highlighted critical issue of policy alignment in reinforcement learning using utility or preference-based feedback. We identify a major gap within current algorithmic designs for solving policy alignment due to a lack of precise characterization of the dependence of the alignment objective on the data generated by policy trajectories. This shortfall contributes to the sub-optimal performance observed in contemporary algorithms. Our framework addressed these concerns by explicitly parameterizing the distribution of the upper alignment objective (reward design) by the lower optimal variable (optimal policy for the designed reward). Interestingly, from an optimization perspective, our formulation leads to a new class of stochastic bilevel problems where the stochasticity at the upper objective depends upon the lower-level variable. {True to our best knowledge, this work presents the first formulation of the RLHF as a bilevel optimization problem which generalizes the existing RLHF formulations and addresses the existing distribution shift issues in RLHF formulations.} To demonstrate the efficacy of our formulation in resolving alignment issues in RL, we devised an algorithm named \textsf{A-PARL} to solve PARL problem, establishing sample complexity bounds of order $\mathcal{O}(1/T)$. Our empirical results substantiate that the proposed \textsf{PARL} can address the alignment concerns in RL by showing significant improvements (up to 63\% in terms of required samples) for policy alignment in large-scale environments of the Deepmind control suite and Meta world tasks.
翻訳日:2024-05-02 20:30:46 公開日:2024-04-30
# 深部保存アテンションネットワークを用いた不安定重粒子の再構成

Reconstruction of Unstable Heavy Particles Using Deep Symmetry-Preserving Attention Networks ( http://arxiv.org/abs/2309.01886v3 )

ライセンス: Link先を確認
Michael James Fenton, Alexander Shmakov, Hideki Okawa, Yuji Li, Ko-Yang Hsiao, Shih-Chieh Hsu, Daniel Whiteson, Pierre Baldi, (参考訳) 不安定な重粒子を再構成するには、検出対象を下層のパルトンに割り当てるために、多数の可能な置換を行うための高度な技術が必要である。 一般化されたアテンション機構、対称性保存アテンションネットワーク(SPA-NET)に基づくアナプローチは、ハドロン衝突型加速器でハドロンジェットしか生成しないトップクォーク対崩壊にこれまで適用されてきた。 ここでは、SPA-NETアーキテクチャを拡張して、レプトンのような複数の入力オブジェクトタイプと、欠落した横運動量のようなグローバルなイベント機能について検討する。 追加として、パルトン割り当てを補うために回帰および分類出力を提供する。 本研究では,トップクォーク対とトップクォーク対の半レプトニック崩壊の文脈におけるSPA-NETの拡張性能について検討する。 ttHの探索,トップクォーク質量の測定,およびトップクォーク対に崩壊する重いZ'の探索という,3つの代表的な研究の力の顕著な改善を見出した。 本稿では,各ケースでネットワークが学んだことの洞察を提供するためのアブレーション研究について紹介する。

Reconstructing unstable heavy particles requires sophisticated techniques to sift through the large number of possible permutations for assignment of detector objects to the underlying partons. Anapproach based on a generalized attention mechanism, symmetry preserving attention networks (SPA-NET), has been previously applied to top quark pair decays at the Large Hadron Collider which produce only hadronic jets. Here we extend the SPA-NET architecture to consider multiple input object types, such as leptons, as well as global event features, such as the missing transverse momentum. Inaddition, we provide regression and classification outputs to supplement the parton assignment. We explore the performance of the extended capability of SPA-NET in the context of semi-leptonic decays of top quark pairs as well as top quark pairs produced in association with a Higgs boson. We find significant improvements in the power of three representative studies: a search for ttH, a measurement of the top quark mass, and a search for a heavy Z' decaying to top quark pairs. We present ablation studies to provide insight on what the network has learned in each case.
翻訳日:2024-05-02 20:21:02 公開日:2024-04-30
# Eureka: 大規模言語モデルのコーディングによるヒューマンレベルリワード設計

Eureka: Human-Level Reward Design via Coding Large Language Models ( http://arxiv.org/abs/2310.12931v2 )

ライセンス: Link先を確認
Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar, (参考訳) 大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクのためのハイレベルなセマンティックプランナーとして優れています。 しかし、粗いペン回転のような複雑な低レベルの操作タスクを学習するためにそれらを活用することは、未解決の問題である。 我々はこの基本的なギャップを埋め、LLMを用いた人間レベルの報酬設計アルゴリズムであるEurekaを提示する。 Eurekaは、GPT-4のような最先端のLCMの顕著なゼロショット生成、コード書き、コンテキスト改善機能を利用して、報酬コードよりも進化的な最適化を行う。 得られた報酬は、強化学習を通じて複雑なスキルを取得するために使用できる。 タスク固有のプロンプトや事前定義された報酬テンプレートがなければ、Eurekaは有能な人間工学的な報酬よりも優れた報酬関数を生成する。 10の異なるロボット形態を含む29のオープンソースRL環境の多様なスイートにおいて、Eurekaは83%のタスクで人間の専門家より優れており、平均52%の正規化された改善につながっている。 ユーレカの一般性はまた、人間のフィードバックからの強化学習(RLHF)のための新しい勾配なしのインコンテキスト学習アプローチを可能にし、人間の入力を容易に取り入れることで、モデル更新なしで生成された報酬の品質と安全性を向上させることができる。 最後に、カリキュラム学習環境におけるユーレカ報酬を用いて、ペン回転トリックを実行し、高速でペンを円状に巧みに操作できるシミュレートされたシャドウハンドを初めて実演する。

Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this fundamental gap and present Eureka, a human-level reward design algorithm powered by LLMs. Eureka exploits the remarkable zero-shot generation, code-writing, and in-context improvement capabilities of state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over reward code. The resulting rewards can then be used to acquire complex skills via reinforcement learning. Without any task-specific prompting or pre-defined reward templates, Eureka generates reward functions that outperform expert human-engineered rewards. In a diverse suite of 29 open-source RL environments that include 10 distinct robot morphologies, Eureka outperforms human experts on 83% of the tasks, leading to an average normalized improvement of 52%. The generality of Eureka also enables a new gradient-free in-context learning approach to reinforcement learning from human feedback (RLHF), readily incorporating human inputs to improve the quality and the safety of the generated rewards without model updating. Finally, using Eureka rewards in a curriculum learning setting, we demonstrate for the first time, a simulated Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a pen in circles at rapid speed.
翻訳日:2024-05-02 20:21:02 公開日:2024-04-30
# AM-RADIO: 集合的ビジョン基盤モデル - すべてのドメインをひとつに

AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One ( http://arxiv.org/abs/2312.06709v5 )

ライセンス: Link先を確認
Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov, (参考訳) いくつかのビジュアルファンデーションモデル(VFM)が、最近、多くの下流タスクのバックボーンとして登場した。 CLIP、DINOv2、SAMなどのVFMは、異なる目的でトレーニングされており、さまざまな下流タスクに固有の特性を示している。 概念的相違にもかかわらず、これらのモデルはマルチティーチンガー蒸留により効果的に統一モデルにマージ可能であることが判明した。 このアプローチをAM-RADIO(Agglomerative Model -- Reduce All Domains Into One)と名付けます。 この統合的アプローチは、個々の教師モデルの性能を上回るだけでなく、ゼロショット視覚言語理解、詳細なピクセルレベルの理解、オープン語彙のセグメンテーション機能など、その特徴と相容れない。 最もハードウェア効率のよいバックボーンを追求するため、同じトレーニングレシピを用いてマルチティーチンガー蒸留パイプラインの多数のアーキテクチャを評価した。 これは、前任者の性能を超え、教師モデルよりも少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)の開発につながった。 包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。 コード:https://github.com/NVlabs/RADIO

A handful of visual foundation models (VFMs) have recently emerged as the backbones for numerous downstream tasks. VFMs like CLIP, DINOv2, SAM are trained with distinct objectives, exhibiting unique characteristics for various downstream tasks. We find that despite their conceptual differences, these models can be effectively merged into a unified model through multi-teacher distillation. We name this approach AM-RADIO (Agglomerative Model -- Reduce All Domains Into One). This integrative approach not only surpasses the performance of individual teacher models but also amalgamates their distinctive features, such as zero-shot vision-language comprehension, detailed pixel-level understanding, and open vocabulary segmentation capabilities. In pursuit of the most hardware-efficient backbone, we evaluated numerous architectures in our multi-teacher distillation pipeline using the same training recipe. This led to the development of a novel architecture (E-RADIO) that exceeds the performance of its predecessors and is at least 7x faster than the teacher models. Our comprehensive benchmarking process covers downstream tasks including ImageNet classification, ADE20k semantic segmentation, COCO object detection and LLaVa-1.5 framework. Code: https://github.com/NVlabs/RADIO
翻訳日:2024-05-02 20:11:13 公開日:2024-04-30
# ネットワーク履歴の創発的絡み合い

Emerging entanglement on network histories ( http://arxiv.org/abs/2312.17313v2 )

ライセンス: Link先を確認
Cecilia Giavoni, Stefan Hofmann, Maximilian Koegler, (参考訳) 我々は、ミンコフスキー時空プローブエンタングルメント特性において、自由落下ネットワークのローレンツ的ヒストリーに制限された量子場が、時空領域にわたって無制限に拡張される真空揺らぎの束縛性を示す。 電場配置は1次元のエッジに局所化されているが、これらのネットワーク履歴に角運動量が現れ、絡み合いエントロピーの卓越した領域スケーリングが確立される。

We show that quantum fields confined to Lorentzian histories of freely falling networks in Minkowski spacetime probe entanglement properties of vacuum fluctuations that extend unrestricted across spacetime regions. Albeit instantaneous field configurations are localized on one-dimensional edges, angular momentum emerges on these network histories and establish the celebrated area scaling of entanglement entropy.
翻訳日:2024-05-02 20:01:24 公開日:2024-04-30
# AIの未来について、何千人ものAI著者が語る

Thousands of AI Authors on the Future of AI ( http://arxiv.org/abs/2401.02843v2 )

ライセンス: Link先を確認
Katja Grace, Harlan Stewart, Julia Fabienne Sandkühler, Stephen Thomas, Ben Weinstein-Raun, Jan Brauner, (参考訳) この種の最大の調査では、トップクラスの人工知能(AI)の会場で2,778人の研究者が、AIの進歩のペースと高度なAIシステムの性質と影響について予測した。 科学が崩壊し続ければ、あらゆるタスクにおいて人間より優れた機械が生まれる確率は、2027年までに10%、2047年には50%と見積もられた。 後者の見積もりは、私たちが1年前に行った同様の調査(Grace et al , 2022)よりも13年早い。 しかし、完全な自動化が可能となる確率は、2037年までに10%、2116年までに50%に達すると予測された(2022年の調査では2164人)。 68.3%は、超人的AIによる良い結果の方が、より悪いと考えるが、これらのネット楽観主義者の48%は、少なくとも、人間の絶滅のような非常に悪い結果の確率を5%以上与え、ネット悲観主義者の59%は、非常に良い結果に5%以上与えた。 回答者の38%から51%は、AIの進歩に少なくとも10%の確率を与え、人間の絶滅ほど悪い結果をもたらした。 半数以上が「実質的」あるいは「極端」な懸念は、誤情報、権威主義的制御、不平等を含む6つの異なるAI関連シナリオについて保証されていると示唆している。 AIの進歩の早さが人類の未来に良いかどうかについては意見の相違があった。 しかし、AIシステムからの潜在的なリスクを最小限に抑える研究が優先されるべきであるという、幅広い合意があった。

In the largest survey of its kind, 2,778 researchers who had published in top-tier artificial intelligence (AI) venues gave predictions on the pace of AI progress and the nature and impacts of advanced AI systems The aggregate forecasts give at least a 50% chance of AI systems achieving several milestones by 2028, including autonomously constructing a payment processing site from scratch, creating a song indistinguishable from a new song by a popular musician, and autonomously downloading and fine-tuning a large language model. If science continues undisrupted, the chance of unaided machines outperforming humans in every possible task was estimated at 10% by 2027, and 50% by 2047. The latter estimate is 13 years earlier than that reached in a similar survey we conducted only one year earlier [Grace et al., 2022]. However, the chance of all human occupations becoming fully automatable was forecast to reach 10% by 2037, and 50% as late as 2116 (compared to 2164 in the 2022 survey). Most respondents expressed substantial uncertainty about the long-term value of AI progress: While 68.3% thought good outcomes from superhuman AI are more likely than bad, of these net optimists 48% gave at least a 5% chance of extremely bad outcomes such as human extinction, and 59% of net pessimists gave 5% or more to extremely good outcomes. Between 38% and 51% of respondents gave at least a 10% chance to advanced AI leading to outcomes as bad as human extinction. More than half suggested that "substantial" or "extreme" concern is warranted about six different AI-related scenarios, including misinformation, authoritarian control, and inequality. There was disagreement about whether faster or slower AI progress would be better for the future of humanity. However, there was broad agreement that research aimed at minimizing potential risks from AI systems ought to be prioritized more.
翻訳日:2024-05-02 20:01:24 公開日:2024-04-30
# CKAと経験的手法を用いたリモート光胸腺撮影アーキテクチャの精細化

Refining Remote Photoplethysmography Architectures using CKA and Empirical Methods ( http://arxiv.org/abs/2401.04801v2 )

ライセンス: Link先を確認
Nathan Vance, Patrick Flynn, (参考訳) モデルアーキテクチャの洗練は、リモート光胸腺撮影(rPPG)のような深層学習研究分野において難しい課題である。 アーキテクチャ上の考慮事項、すなわちモデルの深さは、結果のパフォーマンスに重大な影響を与える可能性がある。 必要以上のレイヤでオーバープロビジョンされたrPPGモデルでは、冗長性が存在し、その除去は高速なトレーニングと推論時の計算負荷の削減をもたらす。 層が多すぎると、モデルが最適以下のエラー率を示す可能性がある。 CKA(Centered Kernel Alignment)を異なる深さのrPPGアーキテクチャの配列に適用し、より浅いモデルではより深いモデルと同じ表現を学ばず、一定の深さで冗長層を追加しても機能が大きく向上しないことを示した。 実証実験により, CKAによるアーキテクチャ欠陥が性能に与える影響を確認し, 診断としてのCKAがrPPGアーキテクチャの洗練にどのように役立つかを示す。

Model architecture refinement is a challenging task in deep learning research fields such as remote photoplethysmography (rPPG). One architectural consideration, the depth of the model, can have significant consequences on the resulting performance. In rPPG models that are overprovisioned with more layers than necessary, redundancies exist, the removal of which can result in faster training and reduced computational load at inference time. With too few layers the models may exhibit sub-optimal error rates. We apply Centered Kernel Alignment (CKA) to an array of rPPG architectures of differing depths, demonstrating that shallower models do not learn the same representations as deeper models, and that after a certain depth, redundant layers are added without significantly increased functionality. An empirical study confirms how the architectural deficiencies discovered using CKA impact performance, and we show how CKA as a diagnostic can be used to refine rPPG architectures.
翻訳日:2024-05-02 20:01:24 公開日:2024-04-30
# $\texttt{immrax}$:A Parallelizable and Differentiable Toolbox for Interval Analysis and Mixed Monotone Reachability in JAX

$\texttt{immrax}$: A Parallelizable and Differentiable Toolbox for Interval Analysis and Mixed Monotone Reachability in JAX ( http://arxiv.org/abs/2401.11608v2 )

ライセンス: Link先を確認
Akash Harapanahalli, Saber Jafarpour, Samuel Coogan, (参考訳) 計算フレームワークJAXで完全に構成可能なPythonの関数変換として,区間解析と混合単調区間到達可能性解析を実装した。 結果のツールボックスは、Just-In-Time Compilationによる計算効率、高速並列計算のためのGPUアクセラレーション、自動微分可能性など、JAXからいくつかの重要な機能を継承している。 ニューラルネットワークによって制御される車両モデルにおける到達可能性問題や、揺動振子に対する頑健な閉ループ最適制御問題など、いくつかのケーススタディにおいて、ツールボックスの性能を実証する。

We present an implementation of interval analysis and mixed monotone interval reachability analysis as function transforms in Python, fully composable with the computational framework JAX. The resulting toolbox inherits several key features from JAX, including computational efficiency through Just-In-Time Compilation, GPU acceleration for quick parallelized computations, and Automatic Differentiability. We demonstrate the toolbox's performance on several case studies, including a reachability problem on a vehicle model controlled by a neural network, and a robust closed-loop optimal control problem for a swinging pendulum.
翻訳日:2024-05-02 20:01:24 公開日:2024-04-30
# 自然言語による実験と規則改正と確率論的推論

Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning ( http://arxiv.org/abs/2402.06025v4 )

ライセンス: Link先を確認
Wasu Piriyakulkij, Kevin Ellis, (参考訳) 我々は、人間が実験によって隠れルールを積極的に推論する方法の計算モデルを構築します。 モデルの背後にある基本的な原則は、たとえ規則が決定論的であっても、学習者は、自然言語で表されるファジィ確率規則のより広い空間を考察し、ベイズ主義の原理に則って各実験の後にオンラインで仮説を更新することである。 同じフレームワークでは、情報理論の基準に従って実験設計もモデル化する。 これらの3つの原則 – 明示的な仮説,確率的ルール,オンライン更新 – を組み合わせることで,禅道的なタスクにおける人的パフォーマンスが説明できることが分かった。

We build a computational model of how humans actively infer hidden rules by doing experiments. The basic principles behind the model is that, even if the rule is deterministic, the learner considers a broader space of fuzzy probabilistic rules, which it represents in natural language, and updates its hypotheses online after each experiment according to approximately Bayesian principles. In the same framework we also model experiment design according to information-theoretic criteria. We find that the combination of these three principles -- explicit hypotheses, probabilistic rules, and online updates -- can explain human performance on a Zendo-style task, and that removing any of these components leaves the model unable to account for the data.
翻訳日:2024-05-02 20:01:24 公開日:2024-04-30
# Model Collapse Demystified: the case of Regression

Model Collapse Demystified: The Case of Regression ( http://arxiv.org/abs/2402.07712v2 )

ライセンス: Link先を確認
Elvis Dohmatob, Yunzhen Feng, Julia Kempe, (参考訳) 大規模言語や画像生成モデルの普及の時代において、「モデル崩壊」という現象は、モデルが過去の世代から生成されたデータに基づいて再帰的に訓練されることで、モデルが最終的に完全に役に立たないようになるまでその性能が低下する状況である。 本研究では,この現象を高次元回帰の設定において研究し,この現象を幅広い状況下で定量的に概説する解析式を得る。 多項式減衰スペクトルとソース条件の特別な場合、高速から低速のクロスオーバー現象を示す改良されたスケーリング法則を得る。 また、モデル崩壊を緩和する適応正則化に基づく簡単な戦略を提案する。 我々の理論的結果は実験によって検証される。

In the era of proliferation of large language and image generation models, the phenomenon of "model collapse" refers to the situation whereby as a model is trained recursively on data generated from previous generations of itself over time, its performance degrades until the model eventually becomes completely useless, i.e the model collapses. In this work, we study this phenomenon in the setting of high-dimensional regression and obtain analytic formulae which quantitatively outline this phenomenon in a broad range of regimes. In the special case of polynomial decaying spectral and source conditions, we obtain modified scaling laws which exhibit new crossover phenomena from fast to slow rates. We also propose a simple strategy based on adaptive regularization to mitigate model collapse. Our theoretical results are validated with experiments.
翻訳日:2024-05-02 18:05:17 公開日:2024-04-30
# 量子物理学に触発されたゲームデザイン:量子フォトブースのケーススタディ

Game Design Inspired by Quantum Physics: A Case Study on The Quantum Photo Booth ( http://arxiv.org/abs/2402.13431v2 )

ライセンス: Link先を確認
Sunanda Prabhu Gaunkar, Denise Fischer, Filip Rozpędek, Umang Bhatia, Shobhit Verma, Ahit Kaan Tarhan, Uri Zvi, Nancy Kawalek, (参考訳) 本稿では,最近の量子物理学研究の成果の一つであるSTAGE Lab Quantum Casino(STAGE Lab Quantum Arcade)の概念開発について説明する。 この作品は一連のカードとデジタルゲームとインタラクティブな体験からなり、一般大衆を量子物理学にさらし、学習障壁を最小化している。 さらに,インタラクティブな体験のケーススタディを,The Quantum Photo Boothの形で紹介する。 STAGE Lab Quantum Casinoは、あらゆる年齢の人々が量子物理学に親しみやすい体験を提供する。 ゲームプレイで発生する課題を克服するためのツールや戦略として量子物理学のコアコンセプトを使用することで、プレイヤーはこれらの概念を直感的に理解することができる。 これらのゲームは、測定、重ね合わせ、暗号化、デコヒーレンス、絡み合いといった量子物理学の概念をプレイヤーに直接体験させる。 伝統的な教室の教育を通して概念を教える代わりに、これらのゲームは好奇心を呼び起こし、遊び心の瞬間を刺激し、遊び中心の学習モダリティを触媒することを目的としている。 本稿では,STAGE Lab Quantum Casinoの開発を概観し,The Quantum Photo Boothの体験と,その成果に加えて,科学がゲーム開発プロセスの本質にどのように統合されているかに注目した。

In this paper, we explain the conceptual development of the STAGE Lab Quantum Casino (a.k.a. the STAGE Lab Quantum Arcade), one of the Lab's most recent artistic endeavors about quantum physics. This work consists of a series of card and digital games and an interactive experience, exposing the public to quantum physics and minimizing learning barriers. Furthermore, we will also present a case study of the interactive experience, in the form of The Quantum Photo Booth. The STAGE Lab Quantum Casino provides an entertaining and approachable experience for people of all ages to become familiar with quantum physics. By using core concepts of quantum physics as tools and strategies to overcome challenges that arise in gameplay, players gain an intuitive understanding of these concepts. These games provide players with a first-hand experience of the following quantum physics concepts: measurement, superposition, encryption, decoherence, and entanglement. Instead of teaching the concepts through a traditional classroom pedagogy, these games aim to invoke curiosity, spark moments of playfulness, and catalyze play-centric learning modalities. This paper provides a general overview of the development of the STAGE Lab Quantum Casino, focusing on The Quantum Photo Booth experience and how science is integrated into the very nature of the game development process in addition to its outcome.
翻訳日:2024-05-02 18:05:17 公開日:2024-04-30
# Brilla AI: 国家科学と数学のクイズのためのAIコンテスト

Brilla AI: AI Contestant for the National Science and Maths Quiz ( http://arxiv.org/abs/2403.01699v3 )

ライセンス: Link先を確認
George Boateng, Jonathan Abrefah Mensah, Kevin Takyi Yeboah, William Edor, Andrew Kojo Mensah-Onumah, Naafi Dasana Ibrahim, Nana Sam Yeboah, (参考訳) アフリカ大陸には十分な能力のある教師が不足しており、十分な学習支援の供給を妨げている。 AIは限られた数の教師の努力を増強し、より良い学習結果をもたらす可能性がある。 この研究は、NSMQ AI Grand Challengeの最初の重要な成果を記述し、評価し、このAIのための堅牢で実世界のベンチマークを提案している。 NSMQ (英語: NSMQ) は、ガーナの2人の学生からなる3つのチームが、生物学、化学、物理学、数学の5段階にわたる質問に答えて、優勝チームが優勝するまでの5段階で競う、毎年開催される科学・数学の大会である。 この作業で私たちは,2023年のNSMQ Grand FinaleのRidlesラウンドで,非公式に競うために展開した,AI競技者のBrilla AIを開発しました。 Brilla AIは現在、コンテストのRidlesラウンドをライブストリーミングするWebアプリとして利用可能で、4つの機械学習システムを実行している。 デビュー当初、私たちのAIは3つの人間コンテストチームの前の4つの謎のうちの1つに答えました。 このAIの改良と拡張は、学生に科学教育を提供し、最終的にはアフリカ中で数百万人が1対1の学習インタラクションを持ち、科学教育を民主化するために展開される可能性がある。

The African continent lacks enough qualified teachers which hampers the provision of adequate learning support. An AI could potentially augment the efforts of the limited number of teachers, leading to better learning outcomes. Towards that end, this work describes and evaluates the first key output for the NSMQ AI Grand Challenge, which proposes a robust, real-world benchmark for such an AI: "Build an AI to compete live in Ghana's National Science and Maths Quiz (NSMQ) competition and win - performing better than the best contestants in all rounds and stages of the competition". The NSMQ is an annual live science and mathematics competition for senior secondary school students in Ghana in which 3 teams of 2 students compete by answering questions across biology, chemistry, physics, and math in 5 rounds over 5 progressive stages until a winning team is crowned for that year. In this work, we built Brilla AI, an AI contestant that we deployed to unofficially compete remotely and live in the Riddles round of the 2023 NSMQ Grand Finale, the first of its kind in the 30-year history of the competition. Brilla AI is currently available as a web app that livestreams the Riddles round of the contest, and runs 4 machine learning systems: (1) speech to text (2) question extraction (3) question answering and (4) text to speech that work together in real-time to quickly and accurately provide an answer, and then say it with a Ghanaian accent. In its debut, our AI answered one of the 4 riddles ahead of the 3 human contesting teams, unofficially placing second (tied). Improvements and extensions of this AI could potentially be deployed to offer science tutoring to students and eventually enable millions across Africa to have one-on-one learning interactions, democratizing science education.
翻訳日:2024-05-02 18:05:17 公開日:2024-04-30
# 大規模言語モデルを用いたソーシャルメディア上の誤情報訂正

Correcting misinformation on social media with a large language model ( http://arxiv.org/abs/2403.11169v3 )

ライセンス: Link先を確認
Xinyi Zhou, Ashish Sharma, Amy X. Zhang, Tim Althoff, (参考訳) 現実の誤報は一部正し、事実でも誤解を招くことがある。 科学と民主主義に対する大衆の信頼を損なうもので、特にソーシャルメディアでは急速に普及している。 偽情報の高品質でタイムリーな修正は、偽の信念を効果的に減らすために、その正確さを識別し、説明する。 手動修正が広く受け入れられているにもかかわらず、大きな言語モデル(LLM)のような技術が誤情報を生成しやすくするため、タイムリーでスケーラブルであることは困難である。 LLMはまた、誤報訂正を加速させる万能性を持っているが、最近の情報不足、偽コンテンツを生成する傾向、マルチモーダル情報に対処する際の制限により、それらは苦戦している。 本稿では,最新の情報へのアクセスと信頼性を付加したLCMであるMUSEを提案する。 証拠を反証や文脈として取り出すことで、MUSEはコンテンツの一部の正確さを特定し、説明します。 また、画像を記述し、マルチモーダル検索を行い、マルチモーダルコンテンツの検証と修正を行う。 ファクトチェックの専門家は、(非)誤情報を前提としないが、広範に誤った、部分的に正しい、正しいポストを含むソーシャルメディアコンテンツに対する反応を評価する。 本稿では,誤情報訂正品質の13次元について,識別精度や説明の事実性から参照の関連性,信頼性までについて検討し,評価する。 その結果,MUSEはソーシャルメディア上の誤情報に対する高品質な応答を迅速に書けるようになり,MUSEはGPT-4を37%,一般人からの高品質な応答を29%上回った。 この研究は、LLMが現実世界の誤報と効果的に戦える可能性を明らかにする。

Real-world misinformation can be partially correct and even factual but misleading. It undermines public trust in science and democracy, particularly on social media, where it can spread rapidly. High-quality and timely correction of misinformation that identifies and explains its (in)accuracies has been shown to effectively reduce false beliefs. Despite the wide acceptance of manual correction, it is difficult to be timely and scalable, a concern as technologies like large language models (LLMs) make misinformation easier to produce. LLMs also have versatile capabilities that could accelerate misinformation correction-however, they struggle due to a lack of recent information, a tendency to produce false content, and limitations in addressing multimodal information. We propose MUSE, an LLM augmented with access to and credibility evaluation of up-to-date information. By retrieving evidence as refutations or contexts, MUSE identifies and explains (in)accuracies in a piece of content-not presupposed to be misinformation-with references. It also describes images and conducts multimodal searches to verify and correct multimodal content. Fact-checking experts evaluate responses to social media content that are not presupposed to be (non-)misinformation but broadly include incorrect, partially correct, and correct posts, that may or may not be misleading. We propose and evaluate 13 dimensions of misinformation correction quality, ranging from the accuracy of identifications and factuality of explanations to the relevance and credibility of references. The results demonstrate MUSE's ability to promptly write high-quality responses to potential misinformation on social media-overall, MUSE outperforms GPT-4 by 37% and even high-quality responses from laypeople by 29%. This work reveals LLMs' potential to help combat real-world misinformation effectively and efficiently.
翻訳日:2024-05-02 17:55:26 公開日:2024-04-30
# 相関電子波動関数の変動補間によって実現される高速かつ正確な非断熱的分子動力学

Fast and accurate nonadiabatic molecular dynamics enabled through variational interpolation of correlated electron wavefunctions ( http://arxiv.org/abs/2403.12275v2 )

ライセンス: Link先を確認
Kemal Atalar, Yannic Rath, Rachel Crespo-Otero, George H. Booth, (参考訳) 本研究では, 固有ベクトル継続の概念に基づいて, 平均フィールドコストで化学空間を通した多体波動関数の訓練セットを, 厳密かつ滑らかに補間する効率的な多状態法を開発した。 推定された状態は、異なる核ジオメトリの多体基底間で伝達される訓練状態の変分最適線形結合として表される。 モデルから解析的多状態力と非断熱的結合が非断熱的分子動力学に適用可能であることを示す。 このことは、光励起された28原子水素鎖の非断熱的分子動力学に応用し、結果として生じる核運動が驚くほど複雑になる。 異なるジオメトリーにおける低エネルギー相関電子構造からのトレーニング状態の22個のDMRG計算で、12,000ジオメトリーにおける多状態エネルギー, 力および非断熱結合ベクトルを、ブルート力アプローチでは実現できない分子軌道のアンサンブルに沿った高精度な収束性で推定する。 これにより、正確な単一点相関電子構造法と光誘起分子動力学の関連性の時間スケールの間に時間スケールを橋渡しするルートが開かれる。

We build on the concept of eigenvector continuation to develop an efficient multi-state method for the rigorous and smooth interpolation of a small training set of many-body wavefunctions through chemical space at mean-field cost. The inferred states are represented as variationally optimal linear combinations of the training states transferred between the many-body basis of different nuclear geometries. We show that analytic multi-state forces and nonadiabatic couplings from the model enable application to nonadiabatic molecular dynamics, developing an active learning scheme to ensure a compact and systematically improvable training set. This culminates in application to the nonadiabatic molecular dynamics of a photoexcited 28-atom hydrogen chain, with surprising complexity in the resulting nuclear motion. With just 22 DMRG calculations of training states from the low-energy correlated electronic structure at different geometries, we infer the multi-state energies, forces and nonadiabatic coupling vectors at 12,000 geometries with provable convergence to high accuracy along an ensemble of molecular trajectories, which would not be feasible with a brute force approach. This opens up a route to bridge the timescales between accurate single-point correlated electronic structure methods and timescales of relevance for photo-induced molecular dynamics.
翻訳日:2024-05-02 17:55:26 公開日:2024-04-30
# ライフサイクル・アンラーニング・コミットマネジメントに向けて : サンプルレベルの非ラーニング完全性の測定

Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Approximate Unlearning Completeness ( http://arxiv.org/abs/2403.12830v2 )

ライセンス: Link先を確認
Cheng-Long Wang, Qi Li, Zihang Xiang, Yinzhi Cao, Di Wang, (参考訳) より柔軟なアンラーニングの定義を採用し、ターゲットデータなしでトレーニングをシミュレートするためにモデル分布を調整することで、近似マシンアンラーニングは、より退屈な正確なアンラーニング方法に代わるリソース要求の少ない代替手段を提供する。 しかし、アルゴリズムが外部の脅威なしに忠実に実行されたとしても、ターゲットサンプルの未学習完全性は、ほとんど検討されず、それらの近似アルゴリズムがライフサイクル中に非学習のコミットメントを果たす能力について疑問を呈する。 本稿では,ライフサイクル・アンラーニング・コミットメント・マネジメント(LUCM)の課題について紹介し,その主な課題について概説する。 サンプルレベルの未学習完全性を評価するための効率的な指標を提案する。 実験結果から, 学習課題間の非学習完全性に対する測定値の強い相関, 計算効率の2つの重要な領域において, メンバーシップ推論技術よりも優れており, リアルタイムアプリケーションに適していることを示す。 さらに、この指標は、未学習のライフサイクルを通して、未学習の異常をモニタリングするツールとして機能することを示す。 本稿では,現在の近似アルゴリズムの非学習的コミットメントを評価するために,この指標を適用した。 複数のアンラーニングベンチマークで分析した結果、これらのアルゴリズムは2つの主要な問題により、アンラーニングのコミットメントを一貫性なく満たしていることがわかった。 1)未学習の新たなデータは,これまで要求されていたデータの未学習ユーティリティに大きく影響し得る。 2) 近似アルゴリズムは, 異なるグループ間で等価な未学習ユーティリティを確保するのに失敗する。 これらの洞察は、未学習のライフサイクルを通してLUCMの重要な重要性を強調している。 間もなく、新しく開発したベンチマークをオープンソース化します。

By adopting a more flexible definition of unlearning and adjusting the model distribution to simulate training without the targeted data, approximate machine unlearning provides a less resource-demanding alternative to the more laborious exact unlearning methods. Yet, the unlearning completeness of target samples-even when the approximate algorithms are executed faithfully without external threats-remains largely unexamined, raising questions about those approximate algorithms' ability to fulfill their commitment of unlearning during the lifecycle. In this paper, we introduce the task of Lifecycle Unlearning Commitment Management (LUCM) for approximate unlearning and outline its primary challenges. We propose an efficient metric designed to assess the sample-level unlearning completeness. Our empirical results demonstrate its superiority over membership inference techniques in two key areas: the strong correlation of its measurements with unlearning completeness across various unlearning tasks, and its computational efficiency, making it suitable for real-time applications. Additionally, we show that this metric is able to serve as a tool for monitoring unlearning anomalies throughout the unlearning lifecycle, including both under-unlearning and over-unlearning. We apply this metric to evaluate the unlearning commitments of current approximate algorithms. Our analysis, conducted across multiple unlearning benchmarks, reveals that these algorithms inconsistently fulfill their unlearning commitments due to two main issues: 1) unlearning new data can significantly affect the unlearning utility of previously requested data, and 2) approximate algorithms fail to ensure equitable unlearning utility across different groups. These insights emphasize the crucial importance of LUCM throughout the unlearning lifecycle. We will soon open-source our newly developed benchmark.
翻訳日:2024-05-02 17:55:26 公開日:2024-04-30
# PuzzleVQA:抽象的な視覚パターンを持つ言語モデルのマルチモーダル推論課題の診断

PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns ( http://arxiv.org/abs/2403.13315v2 )

ライセンス: Link先を確認
Yew Ken Chia, Vernon Toh Yan Han, Deepanway Ghosal, Lidong Bing, Soujanya Poria, (参考訳) 大規模なマルチモーダルモデルは、多モーダル理解能力を統合することで、大きな言語モデルの印象的な能力を拡張します。 しかし、人間の一般的な知性と推論能力をどのようにエミュレートできるかは明らかではない。 パターン認識と抽象概念が汎用知能の鍵となるため,抽象パターンに基づくパズルの集合であるPuzzleVQAを導入する。 本データセットでは,色,数,サイズ,形状などの基本概念に基づいた抽象パターンを用いた大規模マルチモーダルモデルの評価を行う。 最先端の大規模マルチモーダルモデルに関する我々の実験により、単純な抽象パターンに対してうまく一般化できないことが判明した。 特に、GPT-4Vでもパズルの半分以上は解けない。 大規模マルチモーダルモデルにおける推論の課題を診断するために、視覚的知覚、帰納的推論、帰納的推論の説明を根拠として、モデルを段階的にガイドする。 系統分析の結果, GPT-4Vの主なボトルネックは視覚知覚の弱さと誘導的推論能力であることがわかった。 この作業を通じて、大規模なマルチモーダルモデルの限界と、将来的には人間の認知プロセスをよりうまくエミュレートする方法について、光を当てたいと思っています(私たちのデータとコードはhttps://github.com/declare-lab/LLM-PuzzleTestで公開されます)。

Large multimodal models extend the impressive capabilities of large language models by integrating multimodal understanding abilities. However, it is not clear how they can emulate the general intelligence and reasoning ability of humans. As recognizing patterns and abstracting concepts are key to general intelligence, we introduce PuzzleVQA, a collection of puzzles based on abstract patterns. With this dataset, we evaluate large multimodal models with abstract patterns based on fundamental concepts, including colors, numbers, sizes, and shapes. Through our experiments on state-of-the-art large multimodal models, we find that they are not able to generalize well to simple abstract patterns. Notably, even GPT-4V cannot solve more than half of the puzzles. To diagnose the reasoning challenges in large multimodal models, we progressively guide the models with our ground truth reasoning explanations for visual perception, inductive reasoning, and deductive reasoning. Our systematic analysis finds that the main bottlenecks of GPT-4V are weaker visual perception and inductive reasoning abilities. Through this work, we hope to shed light on the limitations of large multimodal models and how they can better emulate human cognitive processes in the future (Our data and code will be released publicly at https://github.com/declare-lab/LLM-PuzzleTest).
翻訳日:2024-05-02 17:55:26 公開日:2024-04-30
# ニューラルネットワーク時代における$n$-gram平滑化の役割

The Role of $n$-gram Smoothing in the Age of Neural Networks ( http://arxiv.org/abs/2403.17240v2 )

ライセンス: Link先を確認
Luca Malagutti, Andrius Buinovskij, Anej Svete, Clara Meister, Afra Amini, Ryan Cotterell, (参考訳) 30年近くにわたって、$n$-gramの仮定から派生した言語モデルは、タスクの最先端を保った。 その成功の鍵は、オーバーフィッティングと戦うための様々なスムーズな技術の適用であった。 しかし、ニューラルネットワークモデルが最高のパフォーマーとして$n$-gramモデルに取って代わると、$n$-gramスムース化技術はより重要視されることはなかった。 実際、$n$-gramの平滑化技術に関する調査の行が休眠状態になったことを示唆するのは、下記の通りである。 本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。 まず、ラベル平滑化、ニューラルネットワークモデルの一般的な正規化手法、および add-$\lambda$平滑化の形式的等価性を描く。 第二に、任意の$n$-gram平滑化手法をニューラルネットワークモデルと互換性のある正規化器に変換するための一般化されたフレームワークを導出する。 我々の経験的結果は、我々の新しい正規化器は言語モデリングや機械翻訳において、ラベルのスムーズなスムーズさに匹敵するものであること、そして実際に、時には性能が優れていることを発見した。

For nearly three decades, language models derived from the $n$-gram assumption held the state of the art on the task. The key to their success lay in the application of various smoothing techniques that served to combat overfitting. However, when neural language models toppled $n$-gram models as the best performers, $n$-gram smoothing techniques became less relevant. Indeed, it would hardly be an understatement to suggest that the line of inquiry into $n$-gram smoothing techniques became dormant. This paper re-opens the role classical $n$-gram smoothing techniques may play in the age of neural language models. First, we draw a formal equivalence between label smoothing, a popular regularization technique for neural language models, and add-$\lambda$ smoothing. Second, we derive a generalized framework for converting any $n$-gram smoothing technique into a regularizer compatible with neural language models. Our empirical results find that our novel regularizers are comparable to and, indeed, sometimes outperform label smoothing on language modeling and machine translation.
翻訳日:2024-05-02 17:55:26 公開日:2024-04-30
# 連続学習における塑性の喪失と破滅的予測

Addressing Loss of Plasticity and Catastrophic Forgetting in Continual Learning ( http://arxiv.org/abs/2404.00781v2 )

ライセンス: Link先を確認
Mohamed Elsayed, A. Rupam Mahmood, (参考訳) 深層表現学習法は、有用な単位の破滅的な忘れと可塑性の喪失に苦しむ連続学習に苦しむ。 多くのメソッドがこれら2つの問題に別々に対処するが、現在、両方を同時に扱うのはわずかである。 本稿では,表現の連続的学習のための新しいアプローチとして,実用性に基づく摂動学習(UPGD)を紹介する。 UPGDは勾配の更新と摂動を組み合わせることで、より有用なユニットに小さな修正を加え、忘れないようにし、あまり役に立たないユニットにより大きな修正を加え、可塑性を回復させる。 連続的な学習問題には数百の非定常性と未知のタスク境界がある。 既存の手法の多くは少なくとも1つの問題に悩まされており、その主な原因はタスクの精度の低下である。 一方、UPGDはパフォーマンスを改善し続け、あらゆる問題において全てのメソッドに勝っているか、競合している。 最後に,PPOを用いた強化学習実験において,Adamは初等学習後に性能低下を示すが,UPGDは2つの連続学習問題に対処することで回避することを示した。

Deep representation learning methods struggle with continual learning, suffering from both catastrophic forgetting of useful units and loss of plasticity, often due to rigid and unuseful units. While many methods address these two issues separately, only a few currently deal with both simultaneously. In this paper, we introduce Utility-based Perturbed Gradient Descent (UPGD) as a novel approach for the continual learning of representations. UPGD combines gradient updates with perturbations, where it applies smaller modifications to more useful units, protecting them from forgetting, and larger modifications to less useful units, rejuvenating their plasticity. We use a challenging streaming learning setup where continual learning problems have hundreds of non-stationarities and unknown task boundaries. We show that many existing methods suffer from at least one of the issues, predominantly manifested by their decreasing accuracy over tasks. On the other hand, UPGD continues to improve performance and surpasses or is competitive with all methods in all problems. Finally, in extended reinforcement learning experiments with PPO, we show that while Adam exhibits a performance drop after initial learning, UPGD avoids it by addressing both continual learning issues.
翻訳日:2024-05-02 17:55:26 公開日:2024-04-30
# 概念の深さを探る: 大規模言語モデルはどのように異なる層で知識を取得するか?

Exploring Concept Depth: How Large Language Models Acquire Knowledge at Different Layers? ( http://arxiv.org/abs/2404.07066v2 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Jingyuan Huang, Qingcheng Zeng, Zhenting Wang, Wenyue Hua, Haiyan Zhao, Kai Mei, Yanda Meng, Kaize Ding, Fan Yang, Mengnan Du, Yongfeng Zhang, (参考訳) 大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。 しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。 本稿では,LLMが異なる層における様々な複雑な概念を処理しているという仮説を考察し,より複雑な概念が一般的により深い層で得られることを示唆する「概念深さ」の概念を導入する。 具体的には、概念を抽象化のレベルに基づいて分類し、現実的、感情的、推論的なタスクにおいて複雑さを増す順に定義する。 タスクの3つの領域にまたがる様々なデータセット上で,様々なLLMファミリー(Gemma, LLaMA, QWen)のレイヤワイズ表現を用いた広範囲な探索実験を行った。 我々の研究結果によると、モデルでは浅い層でより単純なタスクの探索を効率的に行うことができ、より複雑なタスクは正確な理解のためにより深い層を必要とする。 さらに、入力にノイズを加え、モデルの重みを定量化するような外部要因が、層ワイド表現にどのように影響するかを検討する。 以上の結果から, これらの因子は, より深い層を探索するまで, LLMの概念的理解の発達を妨げることが示唆された。 提案する概念と実験的な洞察により,LSMの基盤となるメカニズムの理解が促進されることを期待する。 私たちのコードはhttps://github.com/Luckfort/CDで公開されています。

Large language models (LLMs) have shown remarkable performances across a wide range of tasks. However, the mechanisms by which these models encode tasks of varying complexities remain poorly understood. In this paper, we explore the hypothesis that LLMs process concepts of varying complexities in different layers, introducing the idea of "Concept Depth" to suggest that more complex concepts are typically acquired in deeper layers. Specifically, we categorize concepts based on their level of abstraction, defining them in the order of increasing complexity within factual, emotional, and inferential tasks. We conduct extensive probing experiments using layer-wise representations across various LLM families (Gemma, LLaMA, QWen) on various datasets spanning the three domains of tasks. Our findings reveal that models could efficiently conduct probing for simpler tasks in shallow layers, and more complex tasks typically necessitate deeper layers for accurate understanding. Additionally, we examine how external factors, such as adding noise to the input and quantizing the model weights, might affect layer-wise representations. Our findings suggest that these factors can impede the development of a conceptual understanding of LLMs until deeper layers are explored. We hope that our proposed concept and experimental insights will enhance the understanding of the mechanisms underlying LLMs. Our codes are available at https://github.com/Luckfort/CD.
翻訳日:2024-05-02 17:45:32 公開日:2024-04-30
# GANsemble for Small and Un Balanced Data Sets: a Baseline for Synthetic Microplastics Data

GANsemble for Small and Imbalanced Data Sets: A Baseline for Synthetic Microplastics Data ( http://arxiv.org/abs/2404.07356v2 )

ライセンス: Link先を確認
Daniel Platnick, Sourena Khanzadeh, Alireza Sadeghian, Richard Anthony Valenzano, (参考訳) マイクロプラスチック粒子の摂取やヒトによる吸入は、懸念が高まっている問題である。 残念なことに、機械学習を使って潜在的な害を理解している現在の研究手法は、利用可能なデータの不足によって妨げられている。 特にディープラーニング技術は、小さなデータセットや不均衡なデータセットしか利用できないようなドメインによって挑戦されている。 この課題を克服するには、しばしば、未表現のクラスをオーバーサンプリングしたり、モデルパフォーマンスを改善するために既存のデータを増強する。 本稿では,データ拡張と条件付き生成逆数ネットワーク(cGAN)を接続し,クラス条件付き合成データを生成する2モジュールフレームワークであるGANsembleを提案する。 まず、データ選択モジュールは、最適なデータ拡張戦略を探索することにより、拡張戦略選択を自動化する。 次に、cGANモジュールは、この戦略を使用して、強化された合成データを生成するためにcGANを訓練する。 我々は,小かつ不均衡なマイクロプラスチックデータセット上でGANsembleフレームワークを実験した。 マイクロプラスチック-cGAN(MPcGAN)アルゴリズムを導入し、Frechet Inception Distance(FID)およびInception Scores(IS)の観点から、合成マイクロプラスチック(SYMP)データのベースラインを確立する。 また, 合成マイクロプラスチックフィルタ(SYMP-Filter)アルゴリズムにより, 生成したSYMPの品質を向上させる。 さらに,小型マイクロプラスチックデータセットにおいて,クラス不均衡を解消するためのオーバサンプリングの最大値を示す。 我々の知る限り、この研究は、人工的にマイクロプラスチックデータを作成するための生成AIの最初の応用である。

Microplastic particle ingestion or inhalation by humans is a problem of growing concern. Unfortunately, current research methods that use machine learning to understand their potential harms are obstructed by a lack of available data. Deep learning techniques in particular are challenged by such domains where only small or imbalanced data sets are available. Overcoming this challenge often involves oversampling underrepresented classes or augmenting the existing data to improve model performance. This paper proposes GANsemble: a two-module framework connecting data augmentation with conditional generative adversarial networks (cGANs) to generate class-conditioned synthetic data. First, the data chooser module automates augmentation strategy selection by searching for the best data augmentation strategy. Next, the cGAN module uses this strategy to train a cGAN for generating enhanced synthetic data. We experiment with the GANsemble framework on a small and imbalanced microplastics data set. A Microplastic-cGAN (MPcGAN) algorithm is introduced, and baselines for synthetic microplastics (SYMP) data are established in terms of Frechet Inception Distance (FID) and Inception Scores (IS). We also provide a synthetic microplastics filter (SYMP-Filter) algorithm to increase the quality of generated SYMP. Additionally, we show the best amount of oversampling with augmentation to fix class imbalance in small microplastics data sets. To our knowledge, this study is the first application of generative AI to synthetically create microplastics data.
翻訳日:2024-05-02 17:45:32 公開日:2024-04-30
# 分子グラフにおけるGNNのスケーラビリティについて

On the Scalability of GNNs for Molecular Graphs ( http://arxiv.org/abs/2404.11568v2 )

ライセンス: Link先を確認
Maciej Sypetkowski, Frederik Wenkel, Farimah Poursafaei, Nia Dickson, Karush Suri, Philip Fradkin, Dominique Beaini, (参考訳) ディープラーニングモデルをスケールすることは、言語モデリングと画像生成における最近の革命の中心である。 モデルのサイズ、データセットのサイズ、パフォーマンスには強い関係がある。 しかし、グラフニューラルネットワーク(GNN)のような構造ベースのアーキテクチャは、スパース演算の効率の低下、大規模なデータ要求、各種アーキテクチャの有効性に関する明確さの欠如など、スケールのメリットを示さない。 このようなGNNの欠点を,そのスケーリング行動を研究することによって解決する。 具体的には,2次元分子グラフの公開コレクションにおいて,メッセージパッシングネットワーク,グラフトランスフォーマー,ハイブリッドアーキテクチャを解析する。 初めて、GNNは、深度、幅、分子数、ラベルの数、事前学習データセットの多様性の増大によって、非常に恩恵を受けることを観察した。 さらに、38の高度に競争力のある下流タスクにおいて、従来の大規模モデルよりも優れた微調整のスケーリング挙動を示す。 これは、化学空間をナビゲートできる新しいグラフ基盤モデルであるMolGPSが、38の下流タスクのうち26の最先端タスクより優れている。 我々の研究が、基礎的なGNNが医薬品の発見を促進する時代への道を開くことを願っている。

Scaling deep learning models has been at the heart of recent revolutions in language modelling and image generation. Practitioners have observed a strong relationship between model size, dataset size, and performance. However, structure-based architectures such as Graph Neural Networks (GNNs) are yet to show the benefits of scale mainly due to the lower efficiency of sparse operations, large data requirements, and lack of clarity about the effectiveness of various architectures. We address this drawback of GNNs by studying their scaling behavior. Specifically, we analyze message-passing networks, graph Transformers, and hybrid architectures on the largest public collection of 2D molecular graphs. For the first time, we observe that GNNs benefit tremendously from the increasing scale of depth, width, number of molecules, number of labels, and the diversity in the pretraining datasets. We further demonstrate strong finetuning scaling behavior on 38 highly competitive downstream tasks, outclassing previous large models. This gives rise to MolGPS, a new graph foundation model that allows to navigate the chemical space, outperforming the previous state-of-the-arts on 26 out the 38 downstream tasks. We hope that our work paves the way for an era where foundational GNNs drive pharmaceutical drug discovery.
翻訳日:2024-05-02 17:45:32 公開日:2024-04-30
# 米国における新興AI部門

The Emerging AI Divide in the United States ( http://arxiv.org/abs/2404.11988v2 )

ライセンス: Link先を確認
Madeleine I. G. Daepp, Scott Counts, (参考訳) デジタル・ディビジョンは、社会的・経済的グループ間のデジタル・ツーリングへのアクセスと利用における格差を記述している。 生産性に強く影響する創発的な人工知能ツールは、これらの分割の影響を増大させる可能性がある。 しかし、これらのツールの可利用性、多言語性、多言語性は、従来のデジタルツールと比較して、多様なユーザにとってよりアクセスしやすいものになり得る。 本研究では,米国住民の新たな生成型AIツールChatGPTに関する知識の空間的差異を,州レベルと郡レベルの検索クエリデータの解析により特徴づける。 ツールのリリースから最初の6ヶ月で、西海岸州でChatGPTを検索するユーザの最高率と、アパラチア州とメキシコ湾州での検索率の持続的低さを観察した。 最も高い調査率の郡は比較的都市化されており、比例的に教育を受けており、経済的に有利であり、他の郡やアメリカの平均よりもアジア系住民が多い。 社会経済的・人口統計学的要因と産業構成を調整した多段階モデルにおいて、教育は生成的AIツールの探索率の最大の正の予測因子である。 生成的AI技術は斬新なものだが、初期の取り込みの違いは、デジタルの限界化の慣れ親しんだ道を辿っているように見える。

The digital divide describes disparities in access to and usage of digital tooling between social and economic groups. Emerging generative artificial intelligence tools, which strongly affect productivity, could magnify the impact of these divides. However, the affordability, multi-modality, and multilingual capabilities of these tools could also make them more accessible to diverse users in comparison with previous forms of digital tooling. In this study, we characterize spatial differences in U.S. residents' knowledge of a new generative AI tool, ChatGPT, through an analysis of state- and county-level search query data. In the first six months after the tool's release, we observe the highest rates of users searching for ChatGPT in West Coast states and persistently low rates of search in Appalachian and Gulf states. Counties with the highest rates of search are relatively more urbanized and have proportionally more educated, more economically advantaged, and more Asian residents in comparison with other counties or with the U.S. average. In multilevel models adjusting for socioeconomic and demographic factors as well as industry makeup, education is the strongest positive predictor of rates of search for generative AI tooling. Although generative AI technologies may be novel, early differences in uptake appear to be following familiar paths of digital marginalization.
翻訳日:2024-05-02 17:45:32 公開日:2024-04-30
# Sup3r: 時間面アーキテクチャの階層構造における空間性、安定性、分離性を高めるための半監督アルゴリズム

Sup3r: A Semi-Supervised Algorithm for increasing Sparsity, Stability, and Separability in Hierarchy Of Time-Surfaces architectures ( http://arxiv.org/abs/2404.12402v2 )

ライセンス: Link先を確認
Marco Rasetto, Himanshu Akolkar, Ryad Benosman, (参考訳) イベントデータから特徴抽出を行うニューロモルフィックアプローチであるHierarchy of Time-Surfaces (HOTS)アルゴリズムは、期待できる能力を示すが、ニューロモルフィックハードウェアとの精度と互換性の課題に直面する。 本稿では,これらの課題に対処するためのセミスーパーバイザアルゴリズムであるSup3rを紹介する。 Sup3rはHOTSネットワークのスパーシビリティ、安定性、分離性を向上させる。 半教師付き学習を利用することで、外部分類器を置き換えるHOTSネットワークのエンドツーエンドのオンライントレーニングを可能にする。 Sup3rはクラス不変パターンを学び、相反する特徴を緩和し、処理されたイベントの数を減らす。 さらに、Sup3rは連続的および漸進的な学習を促進し、データ分散シフトへの適応と、忘れずに新しいタスクの学習を可能にする。 N-MNISTの予備的な結果は、Sup3rがバックプロパゲーションで訓練された同様の大きさの人工ニューラルネットワークと同等の精度を達成していることを示している。 この研究は、Sup3rがHOTSネットワークの能力を向上させる可能性を示し、現実世界の応用におけるニューロモルフィックアルゴリズムの有望な道を提供する。

The Hierarchy Of Time-Surfaces (HOTS) algorithm, a neuromorphic approach for feature extraction from event data, presents promising capabilities but faces challenges in accuracy and compatibility with neuromorphic hardware. In this paper, we introduce Sup3r, a Semi-Supervised algorithm aimed at addressing these challenges. Sup3r enhances sparsity, stability, and separability in the HOTS networks. It enables end-to-end online training of HOTS networks replacing external classifiers, by leveraging semi-supervised learning. Sup3r learns class-informative patterns, mitigates confounding features, and reduces the number of processed events. Moreover, Sup3r facilitates continual and incremental learning, allowing adaptation to data distribution shifts and learning new tasks without forgetting. Preliminary results on N-MNIST demonstrate that Sup3r achieves comparable accuracy to similarly sized Artificial Neural Networks trained with back-propagation. This work showcases the potential of Sup3r to advance the capabilities of HOTS networks, offering a promising avenue for neuromorphic algorithms in real-world applications.
翻訳日:2024-05-02 17:45:32 公開日:2024-04-30
# 階層型ハイブリッドスライスワッサースタイン:不均一な関節分布のスケーラブルな計量

Hierarchical Hybrid Sliced Wasserstein: A Scalable Metric for Heterogeneous Joint Distributions ( http://arxiv.org/abs/2404.15378v2 )

ライセンス: Link先を確認
Khai Nguyen, Nhat Ho, (参考訳) Sliced Wasserstein (SW) と Generalized Sliced Wasserstein (GSW) は、その計算的および統計的スケーラビリティのために、アプリケーションで広く使われている。 しかし、SW と GSW は同質領域でサポートされている分布の間でのみ定義される。 この制限は、複数の異なる領域でサポートされている境界分布を持つ不均一な関節分布を持つアプリケーションにおいて、それらの使用を妨げている。 関節領域上でSWとGSWを直接使用すると、同種スライシング演算子、すなわちRadon Transform(RT)とGeneralized Radon Transform(GRT)が関節支持集合の構造を捉えるのに十分表現できないため、意味のある比較はできない。 この問題に対処するため, 部分一般化ラドン変換 (PGRT) と階層ハイブリッドラドン変換 (HHRT) という2つの新しいスライシング演算子を提案する。 PGRT は部分ラドン変換 (Partial Radon Transform, PRT) の一般化であり、HHRT は PRT と複数のドメイン固有の PGRT の合成である。 HHRTを用いて、SWを階層型ハイブリッドスライスワッサースタイン(H2SW)距離に拡張し、異種関節分布の比較に特化して設計する。 次に、H2SWの位相的、統計的、および計算的性質について議論する。 最後に,3次元メッシュ変形,深部3次元メッシュオートエンコーダ,データセット比較におけるH2SWの性能を示す。

Sliced Wasserstein (SW) and Generalized Sliced Wasserstein (GSW) have been widely used in applications due to their computational and statistical scalability. However, the SW and the GSW are only defined between distributions supported on a homogeneous domain. This limitation prevents their usage in applications with heterogeneous joint distributions with marginal distributions supported on multiple different domains. Using SW and GSW directly on the joint domains cannot make a meaningful comparison since their homogeneous slicing operator i.e., Radon Transform (RT) and Generalized Radon Transform (GRT) are not expressive enough to capture the structure of the joint supports set. To address the issue, we propose two new slicing operators i.e., Partial Generalized Radon Transform (PGRT) and Hierarchical Hybrid Radon Transform (HHRT). In greater detail, PGRT is the generalization of Partial Radon Transform (PRT), which transforms a subset of function arguments non-linearly while HHRT is the composition of PRT and multiple domain-specific PGRT on marginal domain arguments. By using HHRT, we extend the SW into Hierarchical Hybrid Sliced Wasserstein (H2SW) distance which is designed specifically for comparing heterogeneous joint distributions. We then discuss the topological, statistical, and computational properties of H2SW. Finally, we demonstrate the favorable performance of H2SW in 3D mesh deformation, deep 3D mesh autoencoders, and datasets comparison.
翻訳日:2024-05-02 17:35:47 公開日:2024-04-30
# AutoGluon-Multimodal (AutoMM): ファンデーションモデルによるマルチモーダルオートMLのスーパーチャージ

AutoGluon-Multimodal (AutoMM): Supercharging Multimodal AutoML with Foundation Models ( http://arxiv.org/abs/2404.16233v2 )

ライセンス: Link先を確認
Zhiqiang Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis, (参考訳) AutoGluon-Multimodal(AutoMM)は、マルチモーダル学習に特化したオープンソースのAutoMLライブラリとして導入された。 非常に使いやすく、AutoMMは、わずか3行のコードで基礎モデルの微調整を可能にする。 画像、テキスト、および表データを含む様々なモダリティをサポートするため、ライブラリは、分類、回帰、オブジェクト検出、セマンティックマッチング、イメージセグメンテーションにまたがる、包括的な機能スイートを提供する。 さまざまなデータセットやタスクにわたる実験では、既存のAutoMLツールと比較して、基本的な分類や回帰タスクにおけるAutoMMの優れたパフォーマンスを示すと同時に、高度なタスクにおける競合結果を示し、そのような目的のために設計された特殊なツールボックスと整合する。

AutoGluon-Multimodal (AutoMM) is introduced as an open-source AutoML library designed specifically for multimodal learning. Distinguished by its exceptional ease of use, AutoMM enables fine-tuning of foundation models with just three lines of code. Supporting various modalities including image, text, and tabular data, both independently and in combination, the library offers a comprehensive suite of functionalities spanning classification, regression, object detection, semantic matching, and image segmentation. Experiments across diverse datasets and tasks showcases AutoMM's superior performance in basic classification and regression tasks compared to existing AutoML tools, while also demonstrating competitive results in advanced tasks, aligning with specialized toolboxes designed for such purposes.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-30
# PAOding: トレーニング済みニューラルネットワークのデブロ化のための高忠実なデータフリープルーニングツールキット

PAODING: A High-fidelity Data-free Pruning Toolkit for Debloating Pre-trained Neural Networks ( http://arxiv.org/abs/2405.00074v1 )

ライセンス: Link先を確認
Mark Huasong Meng, Hao Guan, Liuhuo Wan, Sin Gee Teo, Guangdong Bai, Jin Song Dong, (参考訳) 我々は、データフリープルーニングのレンズを通して、事前学習したニューラルネットワークモデルを肥大化させるツールキットPAOdingを提案する。 モデル忠実性を維持するため、PAOdingは反復的プロセスを採用し、出力層に最も影響の少ない候補を特定するためにニューロンを削除する効果を動的に測定する。 評価の結果,PAOding はモデルサイズを大幅に削減し,異なるデータセットやモデルに基づいて一般化し,テスト精度と対向ロバスト性の観点からモデルの忠実性を維持することができることがわかった。 PAODINGは、https://pypi.org/project/paoding-dl.comからPyPIで公開されている。

We present PAODING, a toolkit to debloat pretrained neural network models through the lens of data-free pruning. To preserve the model fidelity, PAODING adopts an iterative process, which dynamically measures the effect of deleting a neuron to identify candidates that have the least impact to the output layer. Our evaluation shows that PAODING can significantly reduce the model size, generalize on different datasets and models, and meanwhile preserve the model fidelity in terms of test accuracy and adversarial robustness. PAODING is publicly available on PyPI via https://pypi.org/project/paoding-dl.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-30
# SHAPスコアの補正について

On Correcting SHAP Scores ( http://arxiv.org/abs/2405.00076v1 )

ライセンス: Link先を確認
Olivier Letoffe, Xuanxiang Huang, Joao Marques-Silva, (参考訳) 最近の研究は、SHAPスコアが誤帰的特徴属性をもたらす分類器の例を明らかにした。 このような例は、説明可能性に対するシェープリー値の不適切さを示唆していると考えられるが、本論文は、SHAPスコアの特定欠点の源泉がどこかに存在していることを示している。 具体的には, SHAP の故障は, 先行研究における特徴関数による結果であることを示す。 さらに, 特徴関数が尊重すべきいくつかの特性を同定し, それぞれが所望の特性の1つ以上の特徴関数を提示する, 新たな特徴関数を提案する。 さらに,本論文で提案されている特徴的機能は,先行研究で明らかになった欠点を示さないことが保証されている。 また,新しい特徴関数がSHAPスコアの計算複雑性に与える影響についても検討した。 最後に,新しい特徴関数の1つに代えてツールSHAPの変更を提案する。

Recent work uncovered examples of classifiers for which SHAP scores yield misleading feature attributions. While such examples might be perceived as suggesting the inadequacy of Shapley values for explainability, this paper shows that the source of the identified shortcomings of SHAP scores resides elsewhere. Concretely, the paper makes the case that the failings of SHAP scores result from the characteristic functions used in earlier works. Furthermore, the paper identifies a number of properties that characteristic functions ought to respect, and proposes several novel characteristic functions, each exhibiting one or more of the desired properties. More importantly, some of the characteristic functions proposed in this paper are guaranteed not to exhibit any of the shortcomings uncovered by earlier work. The paper also investigates the impact of the new characteristic functions on the complexity of computing SHAP scores. Finally, the paper proposes modifications to the tool SHAP to use instead one of our novel characteristic functions, thereby eliminating some of the limitations reported for SHAP scores.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-30
# BrainODE: グラフ支援ニューラル正規微分方程式による動的脳信号解析

BrainODE: Dynamic Brain Signal Analysis via Graph-Aided Neural Ordinary Differential Equations ( http://arxiv.org/abs/2405.00077v1 )

ライセンス: Link先を確認
Kaiqiao Han, Yi Yang, Zijie Huang, Xuan Kan, Yang Yang, Ying Guo, Lifang He, Liang Zhan, Yizhou Sun, Wei Wang, Carl Yang, (参考訳) 脳ネットワーク分析は、脳の構造と機能に関する神経的相互作用を理解し、臨床表現型に対する潜在的なバイオマーカーを特定するために不可欠である。 しかし、機能的磁気共鳴イメージング(fMRI)から発生する血液酸素レベル依存性(BOLD)時系列などの広く用いられている脳信号は、(1)値の欠如、(2)不規則なサンプル、(3)機器の制限による異常点のサンプリング、下流脳ネットワークの分析、臨床結果の予測の3つの課題をしばしば示している。 本研究では, 正規微分方程式(ODE)を用いて, 動的脳信号の連続モデリングを実現するBrainODEと呼ばれる新しいモデルを提案する。 遅延初期値とニューラルODE関数を不規則な時系列から学習することにより、BrainODEは任意の時点の脳信号を効果的に再構築し、前述の脳信号の3つのデータ課題を完全に軽減する。 実世界のニューロイメージングデータセットに関する総合的な実験結果は、BrainODEの優れた性能と、3つのデータ課題に対処する能力を示している。

Brain network analysis is vital for understanding the neural interactions regarding brain structures and functions, and identifying potential biomarkers for clinical phenotypes. However, widely used brain signals such as Blood Oxygen Level Dependent (BOLD) time series generated from functional Magnetic Resonance Imaging (fMRI) often manifest three challenges: (1) missing values, (2) irregular samples, and (3) sampling misalignment, due to instrumental limitations, impacting downstream brain network analysis and clinical outcome predictions. In this work, we propose a novel model called BrainODE to achieve continuous modeling of dynamic brain signals using Ordinary Differential Equations (ODE). By learning latent initial values and neural ODE functions from irregular time series, BrainODE effectively reconstructs brain signals at any time point, mitigating the aforementioned three data challenges of brain signals altogether. Comprehensive experimental results on real-world neuroimaging datasets demonstrate the superior performance of BrainODE and its capability of addressing the three data challenges.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-30
# Linux BPFにおける投機バリアを用いたスペクトルPHTの緩和

Mitigating Spectre-PHT using Speculation Barriers in Linux BPF ( http://arxiv.org/abs/2405.00078v1 )

ライセンス: Link先を確認
Luis Gerhorst, Henriette Herzog, Peter Wägemann, Maximilian Ott, Rüdiger Kapitza, Timo Hönig, (参考訳) 高性能IOはユーザ空間とカーネル空間の間の低オーバーヘッド通信を必要とする。 この要求は、もはや従来のシステムコールによって満たされない。 Linuxの拡張バークレーパケットフィルタ(BPF)は、ユーザが提供するバイトコードをジャストインタイムでコンパイルし、ネイティブに近い速度でカーネルモードで実行することで、ユーザ/カーネルの遷移を避ける。 BPFプログラムをカーネルから分離するためには、メモリとタイプセーフのために静的に解析される。 しかし、2018年に公表されたSpectreの脆弱性を緩和するためには、潜在的に危険なプログラムを拒否する防衛が配置されなければならなかった。 これは、人気のあるオープンソースプロジェクトによる844の現実世界のBPFプログラムを持つデータセットの24%から54%のプログラムに影響を与える。 これを解決するために、ユーザーは防衛を無効にし、プログラムを使い続けることを余儀なくされ、システム全体が危険にさらされる。 セキュアで表現力のないLinuxカーネル拡張を実現するため,カーネルのSpectreディフェンスを強化し,BPFアプリケーションプログラムの数を54%から0に削減するBerrifyを提案する。 BPFのメインストリームの性能に敏感なアプリケーション(イベントトレース、プロファイリング、パケット処理など)に対するBerrifyのオーバーヘッドを計測し、影響を受けるBPFプログラムが使用不能かカーネルへの過渡的実行攻撃を可能とした場合の状態を著しく改善することを発見した。

High-performance IO demands low-overhead communication between user- and kernel space. This demand can no longer be fulfilled by traditional system calls. Linux's extended Berkeley Packet Filter (BPF) avoids user-/kernel transitions by just-in-time compiling user-provided bytecode and executing it in kernel mode with near-native speed. To still isolate BPF programs from the kernel, they are statically analyzed for memory- and type-safety, which imposes some restrictions but allows for good expressiveness and high performance. However, to mitigate the Spectre vulnerabilities disclosed in 2018, defenses which reject potentially-dangerous programs had to be deployed. We find that this affects 24% to 54% of programs in a dataset with 844 real-world BPF programs from popular open-source projects. To solve this, users are forced to disable the defenses to continue using the programs, which puts the entire system at risk. To enable secure and expressive untrusted Linux kernel extensions, we propose Berrify, an enhancement to the kernel's Spectre defenses that reduces the number of BPF application programs rejected from 54% to zero. We measure Berrify's overhead for all mainstream performance-sensitive applications of BPF (i.e., event tracing, profiling, and packet processing) and find that it improves significantly upon the status-quo where affected BPF programs are either unusable or enable transient execution attacks on the kernel.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-30
# コンビニアルマルチアームバンドによるキャッシング支援

Recommenadation aided Caching using Combinatorial Multi-armed Bandits ( http://arxiv.org/abs/2405.00080v1 )

ライセンス: Link先を確認
Pavamana K J, Chandramani Kishore Singh, (参考訳) 本研究では,有限容量キャッシュを備えた基地局を介してユーザが接続する無線ネットワークにおいて,コンテントキャッシュとレコメンデーションを併用したコンテントキャッシュについて検討する。 我々は、未知のユーザー好みとコンテンツ人気のあるコンテンツセットを仮定する。 コンテンツのサブセットをユーザに推奨し、ユーザがこれらのコンテンツをリクエストするように促すことができます。 これにより、キャッシュヒットの増加にレコメンデーションが使用できる。 キャッシュヒット最適化問題をCMAB (combintorial multi-armed bandit) として定式化する。 キャッシュとレコメンデーションを決定するための UCB ベースのアルゴリズムを提案する。 我々はアルゴリズムの後悔に上限を与えている。 本稿では,アルゴリズムの性能を数値的に検証し,最先端のアルゴリズムと比較する。

We study content caching with recommendations in a wireless network where the users are connected through a base station equipped with a finite-capacity cache. We assume a fixed set of contents with unknown user preferences and content popularities. We can recommend a subset of the contents to the users which encourages the users to request these contents. Recommendation can thus be used to increase cache hits. We formulate the cache hit optimization problem as a combinatorial multi-armed bandit (CMAB). We propose a UCB-based algorithm to decide which contents to cache and recommend. We provide an upper bound on the regret of our algorithm. We numerically demonstrate the performance of our algorithm and compare it to state-of-the-art algorithms.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-30
# 不正確なマルコフ半群とそのエルゴード性

Imprecise Markov Semigroups and their Ergodicity ( http://arxiv.org/abs/2405.00081v1 )

ライセンス: Link先を確認
Michele Caprio, (参考訳) 我々は不正確なマルコフ半群の概念を導入する。 これにより、不正確な遷移確率を持つマルコフ連鎖や過程を(拡散の集合)作用素として見ることができ、従って幾何学、関数解析、(高次元)確率からテクニックを解き、それらのエルゴード的振る舞いを研究することができる。 不正確なマルコフ半群の初期分布が既知かつ不変であるとき、状態空間の幾何学も含む条件の下では、遷移確率に関するあいまいさは消える。 この性質を不正確なマルコフ半群のエルゴード性と呼び、古典的(ビルホフの)エルゴード性の概念と関連付ける。 我々は、状態空間がユークリッドあるいはリーマン多様体であるときと、それが任意の可測空間であるときの両方にエルゴード性を証明する。 機械学習とコンピュータビジョンの分野における我々の発見の重要性についても論じる。

We introduce the concept of imprecise Markov semigroup. It allows us to see Markov chains and processes with imprecise transition probabilities as (a collection of diffusion) operators, and thus to unlock techniques from geometry, functional analysis, and (high dimensional) probability to study their ergodic behavior. We show that, if the initial distribution of an imprecise Markov semigroup is known and invariant, under some conditions that also involve the geometry of the state space, eventually the ambiguity around the transition probability fades. We call this property ergodicity of the imprecise Markov semigroup, and we relate it to the classical (Birkhoff's) notion of ergodicity. We prove ergodicity both when the state space is Euclidean or a Riemannian manifold, and when it is an arbitrary measurable space. The importance of our findings for the fields of machine learning and computer vision is also discussed.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-30
# リアルタイム進化からハミルトニアンの構造学習

Structure learning of Hamiltonians from real-time evolution ( http://arxiv.org/abs/2405.00082v1 )

ライセンス: Link先を確認
Ainesh Bakshi, Allen Liu, Ankur Moitra, Ewin Tang, (参考訳) e^{-\mathrm{i} Ht}$ を未知の局所ハミルトニアン $H = \sum_{a = 1}^m \lambda_a E_a$ に対して$n$ qubits に対して適用する能力を考えると、その目標は$H$ を回復することである。 この問題は、相互作用項である$E_a$が与えられ、相互作用の強度である$\lambda_a$のみが未知であるという前提の下で既によく研究されている。 しかし、その相互作用構造に関する事前の知識がなければ、局所ハミルトニアンを学習することは可能だろうか? 我々は、ハミルトニアン学習に対して、挑戦的な構造学習の変種を解くだけでなく、ハイゼンベルク限定スケーリングのゴールド標準を達成しながら、その領域で他のオープンな問題を解く新しい一般的なアプローチを提案する。 特に、我々のアルゴリズムは、1/\varepsilon$ の展開時間スケーリングでハミルトニアンを $\varepsilon$ の誤差に復元し、(1) ハミルトニアン項を知る必要はなく、(2) クビットと相互作用する項の和がノルムが有界である任意のハミルトニアン $H$ にまで拡張し、(3) 定数時間 $t$ インクリメントで $H$ に従って進化し、一定の時間分解を達成する。 我々の知る限り、ハイゼンベルクに制限されたスケーリングを伴う事前のアルゴリズムは、これらの性質の1つでさえ存在しなかった。 応用として、ハミルトニアンは1/\varepsilon^2$の標準極限を破って、精度$\varepsilon$までパワーロー崩壊を示すことも学べる。

We initiate the study of Hamiltonian structure learning from real-time evolution: given the ability to apply $e^{-\mathrm{i} Ht}$ for an unknown local Hamiltonian $H = \sum_{a = 1}^m \lambda_a E_a$ on $n$ qubits, the goal is to recover $H$. This problem is already well-studied under the assumption that the interaction terms, $E_a$, are given, and only the interaction strengths, $\lambda_a$, are unknown. But is it possible to learn a local Hamiltonian without prior knowledge of its interaction structure? We present a new, general approach to Hamiltonian learning that not only solves the challenging structure learning variant, but also resolves other open questions in the area, all while achieving the gold standard of Heisenberg-limited scaling. In particular, our algorithm recovers the Hamiltonian to $\varepsilon$ error with an evolution time scaling with $1/\varepsilon$, and has the following appealing properties: (1) it does not need to know the Hamiltonian terms; (2) it works beyond the short-range setting, extending to any Hamiltonian $H$ where the sum of terms interacting with a qubit has bounded norm; (3) it evolves according to $H$ in constant time $t$ increments, thus achieving constant time resolution. To our knowledge, no prior algorithm with Heisenberg-limited scaling existed with even one of these properties. As an application, we can also learn Hamiltonians exhibiting power-law decay up to accuracy $\varepsilon$ with total evolution time beating the standard limit of $1/\varepsilon^2$.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-30
# 創造的ビームサーチ

Creative Beam Search ( http://arxiv.org/abs/2405.00099v1 )

ライセンス: Link先を確認
Giorgio Franceschelli, Mirco Musolesi, (参考訳) 大規模な言語モデルは、人工的な創造性を含むいくつかの領域に革命をもたらしている。 しかし、機械の生成過程は、人間で観察されるものとは大きく異なる。 特に、機械生成は意図の欠如と基礎となる創造的プロセスによって特徴づけられる。 本稿では, 応答生成と応答検証を行うために, 横ビームサーチとLCM-as-a-Judgeを用いたCreative Beam Searchを提案する。 定性的実験の結果は,本手法が標準サンプリング手法よりも優れた出力を提供できることを示す。 また、応答検証ステップは応答生成ステップを補完するために必要なものであることも示します。

Large language models are revolutionizing several areas, including artificial creativity. However, the process of generation in machines profoundly diverges from that observed in humans. In particular, machine generation is characterized by a lack of intentionality and an underlying creative process. We propose a method called Creative Beam Search that uses Diverse Beam Search and LLM-as-a-Judge to perform response generation and response validation. The results of a qualitative experiment show how our approach can provide better output than standard sampling techniques. We also show that the response validation step is a necessary complement to the response generation step.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# 量子ドエブリン係数:縮退係数上の単純な上界

Quantum Doeblin coefficients: A simple upper bound on contraction coefficients ( http://arxiv.org/abs/2405.00105v1 )

ライセンス: Link先を確認
Christoph Hirche, (参考訳) 収縮係数はデータ処理の不等式を定量的に強化する。 そのため、情報処理の綿密な分析が必要な場合には、自然界の応用が数多く必要となる。 しかし、これらの係数を計算することはしばしば困難である。 対策として、ドエブリン係数の量子一般化について議論する。 これらのことは、多くの収縮係数に対して効率的に計算可能な上限を与える。 いくつかの性質を証明し、一般化と応用について議論する。 特に、PPTチャネルにさらに強い境界を与え、ある拡張係数を束縛する逆ドエブリン係数を導入する。

Contraction coefficients give a quantitative strengthening of the data processing inequality. As such, they have many natural applications whenever closer analysis of information processing is required. However, it is often challenging to calculate these coefficients. As a remedy we discuss a quantum generalization of Doeblin coefficients. These give an efficiently computable upper bound on many contraction coefficients. We prove several properties and discuss generalizations and applications. In particular, we give additional stronger bounds for PPT channels and introduce reverse Doeblin coefficients that bound certain expansion coefficients.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# 重力エントロピーは観測者に依存している

Gravitational entropy is observer-dependent ( http://arxiv.org/abs/2405.00114v1 )

ライセンス: Link先を確認
Julian De Vuyst, Stefan Eccles, Philipp A. Hoehn, Josh Kirklin, (参考訳) 量子重力学において、観測者が果たす役割の適切な説明は、与えられた時空部分領域においてIII型からII型への可観測体のフォン・ノイマン代数を促進すると論じられている。 これは、数学的に正確なエントロピーの定義を可能にするが、この手順は、どのオブザーバが使用されるかに依存することを示す。 従来のアプローチを一般化することで、異なるオブザーバ(およびオブザーバの任意のコレクション)に対する部分領域の密度演算子を導出し、関連するエントロピーを半古典的なシステマで計算し、また、このシステマを超越したいくつかの具体例で計算する。 異なる観測者によって見られるエントロピーは、大きく異なる可能性がある。 我々の研究は、量子参照フレーム(QRF)の定式化を広く利用しています。 この過程で、Chandrasekaran et al [arXiv:2206.10780] によって引き起こされる物理的状態や観測可能な状態の記述が、Page-Wootters形式と等価であることを示し、非公式なスローガン「PW=CLPW」に繋がった。 この論文は、QRFと量子重力場の間の長期にわたる結合を動機付けるのに役立ちます。 詳細は共用紙に記載されている。

In quantum gravity, it has been argued that a proper accounting of the role played by an observer promotes the von Neumann algebra of observables in a given spacetime subregion from Type III to Type II. While this allows for a mathematically precise definition of its entropy, we show that this procedure depends on which observer is employed. We make this precise by considering a setup in which many possible observers are present; by generalising previous approaches, we derive density operators for the subregion relative to different observers (and relative to arbitrary collections of observers), and we compute the associated entropies in a semiclassical regime, as well as in some specific examples that go beyond this regime. We find that the entropies seen by distinct observers can drastically differ. Our work makes extensive use of the formalism of quantum reference frames (QRF); indeed, as we point out, the 'observers' considered here and in the previous works are nothing but QRFs. In the process, we demonstrate that the description of physical states and observables invoked by Chandrasekaran et al. [arXiv:2206.10780] is equivalent to the Page-Wootters formalism, leading to the informal slogan "PW=CLPW". It is our hope that this paper will help motivate a long overdue union between the QRF and quantum gravity communities. Further details will appear in a companion paper.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# 半データと400倍の計算量を持つ高性能網膜基礎モデルの訓練

Training a high-performance retinal foundation model with half-the-data and 400 times less compute ( http://arxiv.org/abs/2405.00117v1 )

ライセンス: Link先を確認
Justin Engelmann, Miguel O. Bernabeu, (参考訳) 人工知能は医学において大きな可能性を秘めているが、従来は、モデルを訓練する大量のデータセットが不足していたため限られていた。 ファンデーションモデルは、小さなデータセットで下流タスクに適応できる事前訓練されたモデルであり、この問題を軽減する可能性がある。 ムーアフィールドズアイ病院(MEH)の研究者たちは、網膜イメージングの基礎モデルであるRETFound-MEHを提案した。 近年,データ効率のよいDERETFoundが提案されている。 しかし、これら2つのモデルは、当初トレーニングするために非常に重要なリソースを必要とし、下流での使用にリソースが集中していた。 本稿では,75,000枚しか公開されていない画像と400倍の計算量でトレーニングされた網膜基盤モデルであるRETFound-Greenのトレーニングに使用する,新しいToken Restructionの目標を提案する。 我々は,RETFound-MEHとDERETFoundをそれぞれ1万ドル,DERETFoundを1万4000ドルで,RETFound-Greenは100ドル未満で,環境への影響も等しく低減した。 ダウンロード速度は14倍、ベクトル埋め込みは2.7倍、ストレージ容量は2.6倍である。 それにもかかわらず、RETFound-Greenは体系的に悪いパフォーマンスをしない。 実際、DERETFoundでは6つ、RETFound-MEHでは2つと、14のタスクで最高に機能する。 以上の結果から,RETFound-Greenは非常に効率的で高性能な網膜基盤モデルであることが示唆された。 われわれは、Token Restructionの目的を、さらに高いパフォーマンスのためにスケールアップし、網膜画像以外の他の領域にも適用できることを期待している。

Artificial Intelligence holds tremendous potential in medicine, but is traditionally limited by the lack of massive datasets to train models on. Foundation models, pre-trained models that can be adapted to downstream tasks with small datasets, could alleviate this problem. Researchers at Moorfields Eye Hospital (MEH) proposed RETFound-MEH, a foundation model for retinal imaging that was trained on 900,000 images, including private hospital data. Recently, data-efficient DERETFound was proposed that provides comparable performance while being trained on only 150,000 images that are all publicly available. However, both these models required very substantial resources to train initially and are resource-intensive in downstream use. We propose a novel Token Reconstruction objective that we use to train RETFound-Green, a retinal foundation model trained using only 75,000 publicly available images and 400 times less compute. We estimate the cost of training RETFound-MEH and DERETFound at $10,000 and $14,000, respectively, while RETFound-Green could be trained for less than $100, with equally reduced environmental impact. RETFound-Green is also far more efficient in downstream use: it can be downloaded 14 times faster, computes vector embeddings 2.7 times faster which then require 2.6 times less storage space. Despite this, RETFound-Green does not perform systematically worse. In fact, it performs best on 14 tasks, compared to six for DERETFound and two for RETFound-MEH. Our results suggest that RETFound-Green is a very efficient, high-performance retinal foundation model. We anticipate that our Token Reconstruction objective could be scaled up for even higher performance and be applied to other domains beyond retinal imaging.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# Nelder-Mead 簡易探索と二次補間に基づく拡張POSTA

An enhanced POSTA based on Nelder-Mead simplex search and quadratic interpolation ( http://arxiv.org/abs/2405.00122v1 )

ライセンス: Link先を確認
Tianyu Liu, (参考訳) 状態遷移アルゴリズム(STA)は、大域最適化のためのメタヒューリスティック手法である。 近年,パラメータ最適状態遷移アルゴリズム (POSTA) が提案されている。 POSTAでは、パラメータ選択機構により、拡張演算子、回転演算子、軸受演算子の性能を最適化する。 しかし、歴史的情報の利用が不十分なため、POSTAは特定の問題に対する収束速度の低下と解の精度の低下に悩まされている。 歴史的情報をよりよく活用するために、Nelder-Mead (NM) Simplex Searchと2次補間(QI)をPOSTAに統合する。 拡張POSTAは、20-D、30-D、50-Dの14のベンチマーク関数に対してテストされる。 いくつかの競合メタヒューリスティック法との比較実験により,提案手法の有効性が示された。

State transition algorithm (STA) is a metaheuristic method for global optimization. Recently, a modified STA named parameter optimal state transition algorithm (POSTA) is proposed. In POSTA, the performance of expansion operator, rotation operator and axesion operator is optimized through a parameter selection mechanism. But due to the insufficient utilization of historical information, POSTA still suffers from slow convergence speed and low solution accuracy on specific problems. To make better use of the historical information, Nelder-Mead (NM) simplex search and quadratic interpolation (QI) are integrated into POSTA. The enhanced POSTA is tested against 14 benchmark functions with 20-D, 30-D and 50-D space. An experimental comparison with several competitive metaheuristic methods demonstrates the effectiveness of the proposed method.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# グラフニューラルネットワークによる表中の意味型検出

Graph Neural Network Approach to Semantic Type Detection in Tables ( http://arxiv.org/abs/2405.00123v1 )

ライセンス: Link先を確認
Ehsan Hoseinzade, Ke Wang, (参考訳) 本研究では,多くの実世界のアプリケーションにおいて重要な課題であるリレーショナルテーブルにおける意味列型検出の課題に対処する。 BERTのような言語モデルでは予測精度が向上しているが、トークン入力制約はテーブル内およびテーブル間情報の同時処理を制限する。 本稿では,グラフニューラルネットワーク(GNN)を用いてテーブル内依存関係をモデル化し,テーブル間情報に注目する言語モデルを提案する。 提案手法は,既存の最先端アルゴリズムよりも優れているだけでなく,意味型検出のための様々なGNN型の有用性と機能に関する新たな知見を提供する。 コードはhttps://github.com/hoseinzadeehsan/GAITで公開されている。

This study addresses the challenge of detecting semantic column types in relational tables, a key task in many real-world applications. While language models like BERT have improved prediction accuracy, their token input constraints limit the simultaneous processing of intra-table and inter-table information. We propose a novel approach using Graph Neural Networks (GNNs) to model intra-table dependencies, allowing language models to focus on inter-table information. Our proposed method not only outperforms existing state-of-the-art algorithms but also offers novel insights into the utility and functionality of various GNN types for semantic type detection. The code is available at https://github.com/hoseinzadeehsan/GAIT
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# 高密度ネットワークや飽和力学を用いたネットワーク再構築のための複雑な感染は単純な感染より優れる

Complex contagions can outperform simple contagions for network reconstruction with dense networks or saturated dynamics ( http://arxiv.org/abs/2405.00129v1 )

ライセンス: Link先を確認
Nicholas W. Landry, William Thompson, Laurent Hébert-Dufresne, Jean-Gabriel Young, (参考訳) ネットワーク科学者はネットワークの感染を記述するために複雑な動的プロセスを使うことが多いが、感染モデルに適合するツールは通常、単純なダイナミクスを前提としている。 そこで本研究では,ネットワークと動的を一連のノード状態から再構築する非パラメトリック手法を開発し,単純なペアワイドと複雑な近傍型感染の分岐を断ち切るモデルを用いて,このギャップに対処する。 次に, ネットワークは, 密度や動的飽和度が高い場合, 複雑な感染レンズを通して観測すると, より容易に再構築できることを示す。

Network scientists often use complex dynamic processes to describe network contagions, but tools for fitting contagion models typically assume simple dynamics. Here, we address this gap by developing a nonparametric method to reconstruct a network and dynamics from a series of node states, using a model that breaks the dichotomy between simple pairwise and complex neighborhood-based contagions. We then show that a network is more easily reconstructed when observed through the lens of complex contagions if it is dense or the dynamic saturates, and that simple contagions are better otherwise.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# インスライス・クロススライス・アテンションを用いたフレキシブル2.5次元医用画像分割法

A Flexible 2.5D Medical Image Segmentation Approach with In-Slice and Cross-Slice Attention ( http://arxiv.org/abs/2405.00130v1 )

ライセンス: Link先を確認
Amarjeet Kumar, Hongxu Jiang, Muhammad Imran, Cyndi Valdes, Gabriela Leon, Dahyun Kang, Parvathi Nataraj, Yuyin Zhou, Michael D. Weiss, Wei Shao, (参考訳) 深層学習は、複雑な3次元構造を捉えるのに優れた3次元セグメンテーションモデルと高い計算効率を提供する2次元モデルにより、医用画像セグメンテーションのデファクト手法となっている。 しかし、高平面高解像度かつ低平面高解像度の2.5D画像の分割は、比較的未発見の課題である。 2.5D画像の個々のスライスに2Dモデルを適用することは可能だが、スライス間の空間的関係を捉えることは不可能である。 一方、3Dモデルでは、2.5D画像の解像度の不整合や、計算の複雑さ、限られたデータでトレーニングした場合の過度な適合への感受性といった課題に直面している。 この文脈では、2Dニューラルネットワークのみを使用してスライス間相関をキャプチャする2.5Dモデルは、計算要求の低減と実装の単純さにより、有望な解決策として浮上する。 本稿では,CSA(Cross-Slice Attention)モジュールを用いて,任意の数のスライスで2.5D画像を処理できるフレキシブルな2.5DセグメンテーションモデルであるCSA-Netを紹介する。 このモジュールは、中心スライス(セグメンテーション)と隣接するスライスの間の長距離依存関係を学習することにより、3次元空間情報を効果的にキャプチャするクロススライスアテンション機構を使用する。 さらに,CSA-Netは,中央スライス内の画素間の相関関係を理解するために自己認識機構を利用する。 我々は,CSA-Netを3つの2.5D領域に分けて評価した:(1)多クラス脳MRI,(2)バイナリ前立腺MRI,(3)多クラス前立腺MRIのセグメンテーション。 CSA-Netは3つのタスクすべてで2Dと2.5Dのセグメンテーション手法を上回り、その有効性と優越性を実証した。 私たちのコードはhttps://github.com/mirthAI/CSA-Net.comで公開されています。

Deep learning has become the de facto method for medical image segmentation, with 3D segmentation models excelling in capturing complex 3D structures and 2D models offering high computational efficiency. However, segmenting 2.5D images, which have high in-plane but low through-plane resolution, is a relatively unexplored challenge. While applying 2D models to individual slices of a 2.5D image is feasible, it fails to capture the spatial relationships between slices. On the other hand, 3D models face challenges such as resolution inconsistencies in 2.5D images, along with computational complexity and susceptibility to overfitting when trained with limited data. In this context, 2.5D models, which capture inter-slice correlations using only 2D neural networks, emerge as a promising solution due to their reduced computational demand and simplicity in implementation. In this paper, we introduce CSA-Net, a flexible 2.5D segmentation model capable of processing 2.5D images with an arbitrary number of slices through an innovative Cross-Slice Attention (CSA) module. This module uses the cross-slice attention mechanism to effectively capture 3D spatial information by learning long-range dependencies between the center slice (for segmentation) and its neighboring slices. Moreover, CSA-Net utilizes the self-attention mechanism to understand correlations among pixels within the center slice. We evaluated CSA-Net on three 2.5D segmentation tasks: (1) multi-class brain MRI segmentation, (2) binary prostate MRI segmentation, and (3) multi-class prostate MRI segmentation. CSA-Net outperformed leading 2D and 2.5D segmentation methods across all three tasks, demonstrating its efficacy and superiority. Our code is publicly available at https://github.com/mirthAI/CSA-Net.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# 非対称非線形マッハ-ツェンダー干渉計によるN00N状態の工学的重ね合わせ

Engineering superpositions of N00N states using an asymmetric non-linear Mach-Zehnder interferometer ( http://arxiv.org/abs/2405.00132v1 )

ライセンス: Link先を確認
R. J. Birrittella, P. M. Alsing, J. Schneeloch, C. C. Gerry, J. Mimih, P. L. Knight, (参考訳) 非対称非線型マッハ-ツェンダー干渉計(ANLMZI)を用いて、任意の単一モード純状態をN00N状態の重畳にマッピングする方法を再検討する。 この方法では、2モードの合同光子数分布の各軸が任意の単一モードの純状態の統計によって重み付けされるN00N状態の配位-メイク重ね合わせが可能である。 ANLMZIの非線形性は、干渉計の中間モードの1つで起こる$\chi^{\left(3\right)}$ self-Kerr相互作用の形で生じる。 ビームスプリッタで発生する非古典的干渉効果により、N00N状態重畳を生成するために最適な変換を外挿することを目的とした逆エンジニアリング技術を導入する。 これらの手法は一般に、任意の所望の量子特性の状態を生成する手段を探索するために用いられる。

We revisit a method for mapping arbitrary single-mode pure states into superpositions of N00N states using an asymmetric non-linear Mach-Zehnder interferometer (ANLMZI). This method would allow for one to tailor-make superpositions of N00N states where each axis of the two-mode joint-photon number distribution is weighted by the statistics of any single-mode pure state. The non-linearity of the ANLMZI comes in the form of a $\chi^{\left(3\right)}$ self-Kerr interaction occurring on one of the intermediary modes of the interferometer. Motivated by the non-classical interference effects that occur at a beam splitter, we introduce inverse-engineering techniques aimed towards extrapolating optimal transformations for generating N00N state superpositions. These techniques are general enough so as to be employed to probe the means of generating states of any desired quantum properties.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# オランダ語変換:非二項代名詞のためのオランダ語照合解決システム

Transforming Dutch: Debiasing Dutch Coreference Resolution Systems for Non-binary Pronouns ( http://arxiv.org/abs/2405.00134v1 )

ライセンス: Link先を確認
Goya van Boven, Yupei Du, Dong Nguyen, (参考訳) ジェンダーニュートラルな代名詞は、西欧語で導入されつつある。 しかし、近年の評価では、英語のNLPシステムは性中立代名詞を正しく処理することができず、非二項性個体の消去と誤認の危険性が指摘されている。 本稿では,オランダ語中性代名詞,特にHhen and dieに対するコーパス解決システムの性能について検討する。 オランダ語では、これらの代名詞は英語における特異語の長年の存在と比較して、2016年にのみ導入された。 さらに、非バイナリコンテキストにおけるコア参照解決システムのデバイアス化技術として、CDA(Counterfactual Data Augmentation)とデレクシカル化(Deexicalization)の2つを比較した。 また,LEAのような一般的な評価指標から代名詞のパフォーマンスを解釈することが難しいため,正規処理された代名詞の一部を直接表現する代名詞スコアという,革新的な評価基準を導入する。 その結果,性別中性代名詞のパフォーマンスが,性別中性代名詞と比較して低下していることが判明した。 それでも、偏見化は改善には至らなかったが、CDAは男女中性代名詞のパフォーマンスギャップを著しく減らしている。 さらに, CDA は低リソース環境でも有効であり, 限られた文書集合を用いていることを示す。 この効果は、現在はほとんど使われていないが、将来は人気が高まるであろう、未確認のネオプロノウンにまで拡張され、最小の資源と計算コストの低い効果的なデバイアスの実現可能性を示している。

Gender-neutral pronouns are increasingly being introduced across Western languages. Recent evaluations have however demonstrated that English NLP systems are unable to correctly process gender-neutral pronouns, with the risk of erasing and misgendering non-binary individuals. This paper examines a Dutch coreference resolution system's performance on gender-neutral pronouns, specifically hen and die. In Dutch, these pronouns were only introduced in 2016, compared to the longstanding existence of singular they in English. We additionally compare two debiasing techniques for coreference resolution systems in non-binary contexts: Counterfactual Data Augmentation (CDA) and delexicalisation. Moreover, because pronoun performance can be hard to interpret from a general evaluation metric like LEA, we introduce an innovative evaluation metric, the pronoun score, which directly represents the portion of correctly processed pronouns. Our results reveal diminished performance on gender-neutral pronouns compared to gendered counterparts. Nevertheless, although delexicalisation fails to yield improvements, CDA substantially reduces the performance gap between gendered and gender-neutral pronouns. We further show that CDA remains effective in low-resource settings, in which a limited set of debiasing documents is used. This efficacy extends to previously unseen neopronouns, which are currently infrequently used but may gain popularity in the future, underscoring the viability of effective debiasing with minimal resources and low computational costs.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# バリア認証によるデータ駆動型許容安全制御

Data-Driven Permissible Safe Control with Barrier Certificates ( http://arxiv.org/abs/2405.00136v1 )

ライセンス: Link先を確認
Rayan Mazouz, John Skovbekk, Frederik Baymler Mathiesen, Eric Frew, Luca Laurenti, Morteza Lahijanian, (参考訳) 本稿では,バリア証明書を用いて,未知のダイナミクスを持つ確率的システムのためのデータから,安全戦略の最大セットを特定する手法を提案する。 最初のステップは、ガウス過程(GP)回帰を通してシステムの力学を学習し、この推定に対する確率的誤差を取得することである。 そこで我々は,学習したGPモデルを用いて,一括確率障壁関数を構築するアルゴリズムを開発し,最大セットが特定されるまで最悪の制御を逐次プルーニングする手法を提案する。 許容可能な戦略は、真のシステムに対する確率論的安全性を維持することが保証される。 豊富な戦略空間は、安全を維持しながら追加のデータ収集と複雑な振る舞いを可能にするため、これは学習可能なシステムにとって特に重要である。 線形系および非線形系のケーススタディでは、システムの学習のためのデータセットのサイズが増加すると許容可能な戦略セットが成長することを示した。

This paper introduces a method of identifying a maximal set of safe strategies from data for stochastic systems with unknown dynamics using barrier certificates. The first step is learning the dynamics of the system via Gaussian process (GP) regression and obtaining probabilistic errors for this estimate. Then, we develop an algorithm for constructing piecewise stochastic barrier functions to find a maximal permissible strategy set using the learned GP model, which is based on sequentially pruning the worst controls until a maximal set is identified. The permissible strategies are guaranteed to maintain probabilistic safety for the true system. This is especially important for learning-enabled systems, because a rich strategy space enables additional data collection and complex behaviors while remaining safe. Case studies on linear and nonlinear systems demonstrate that increasing the size of the dataset for learning the system grows the permissible strategy set.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# Jaynes-Cummingsモデルの持続的関連性--個人的考察

The enduring relevance of the Jaynes-Cummings model: a personal perspective ( http://arxiv.org/abs/2405.00137v1 )

ライセンス: Link先を確認
P. L. Knight, C. C. Gerry, R. J. Birrittella, P. M. Alsing, (参考訳) 本稿では、現代の量子光学の多くを支えるスピン-ボソン結合を記述する中心モデルとして、Jaynes-Cummingsモデルがどのようになったかについての個人的なハイライトを紹介する。 現在の著者にとって重要な貢献は、量子化された放射場の離散性を示す測定可能な効果の実証である。

In this short perspective article we present our personal highlights on how the Jaynes-Cummings model has become a central model to describe spin-boson couplings underpinning much of modern quantum optics. To the current authors, the key contribution is a demonstration of a measurable effect that showed the discreteness of the quantized radiation field.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# シャドウの転がり:MEV層間ロールアップの抽出解析

Rolling in the Shadows: Analyzing the Extraction of MEV Across Layer-2 Rollups ( http://arxiv.org/abs/2405.00138v1 )

ライセンス: Link先を確認
Christof Ferreira Torres, Albin Mamuti, Ben Weintraub, Cristina Nita-Rotaru, Shweta Shinde, (参考訳) 分散金融の出現はブロックチェーンの資産トレーディングを変革し、従来の金融商品をよりアクセスしやすくするとともに、最大抽出価値(MEV)と呼ばれる一連の搾取的な経済プラクティスを導入している。 同時に、分散金融は、EthereumのようなLayer-1ソリューションと比較して、トランザクションコストの削減による資産取引を容易にするために、ロールアップベースのLayer-2ソリューションを採用しています。 しかし、ロールアップにはEthereumのようなパブリックなメムプールがないため、MEVの抽出がより困難になる。 本稿では,MEVがEthereumおよびArbitrum,Optimism,zkSyncなどの著名なロールアップに対する3年近くにわたって,その頻度と影響について検討する。 私たちの分析は、量、利益、コスト、競争、MEVの機会に対する応答時間など、さまざまな指標を含んでいます。 MEVは、Ethereumに匹敵する取引量で、ロールアップで広く使われていることが分かりました。 また、MEVはロールアップのコストが低いが、Ethereumに比べて利益も著しく低いこともわかりました。 さらに,ロールアップにおけるサンドイッチ攻撃の頻度について検討した。 一般的なロールアップのサンドイッチ活動は検出されなかったが、ロールアップとEthereumにまたがるトランザクションによって促進されるクロスレイヤーサンドイッチ攻撃の可能性を確認した。 その結果, クロスレイヤー・サンドイッチ・アタックにより, 攻撃者がすでに200万USドルを稼いでいたことが判明し, クロスレイヤー・トランザクションを利用した3つの新たな攻撃の可能性について検討した。

The emergence of decentralized finance has transformed asset trading on the blockchain, making traditional financial instruments more accessible while also introducing a series of exploitative economic practices known as Maximal Extractable Value (MEV). Concurrently, decentralized finance has embraced rollup-based Layer-2 solutions to facilitate asset trading at reduced transaction costs compared to Layer-1 solutions such as Ethereum. However, rollups lack a public mempool like Ethereum, making the extraction of MEV more challenging. In this paper, we investigate the prevalence and impact of MEV on Ethereum and prominent rollups such as Arbitrum, Optimism, and zkSync over a nearly three-year period. Our analysis encompasses various metrics including volume, profits, costs, competition, and response time to MEV opportunities. We discover that MEV is widespread on rollups, with trading volume comparable to Ethereum. We also find that, although MEV costs are lower on rollups, profits are also significantly lower compared to Ethereum. Additionally, we examine the prevalence of sandwich attacks on rollups. While our findings did not detect any sandwiching activity on popular rollups, we did identify the potential for cross-layer sandwich attacks facilitated by transactions that are sent across rollups and Ethereum. Consequently, we propose and evaluate the feasibility of three novel attacks that exploit cross-layer transactions, revealing that attackers could have already earned approximately 2 million USD through cross-layer sandwich attacks.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# AfricAIED 2024: 2nd Workshop on Artificial Intelligence in Education in Africa

AfricAIED 2024: 2nd Workshop on Artificial Intelligence in Education in Africa ( http://arxiv.org/abs/2405.00139v1 )

ライセンス: Link先を確認
George Boateng, Victor Kumbol, (参考訳) 近年のAIの進歩は、グローバルな教育に変革をもたらす可能性があるが、その応用はしばしばアフリカのユニークな教育環境を見落としている。 AfricAIED 2024はこのギャップに対処し、アフリカのニーズに合わせたAI(AIED)システムの開発に注目する。 最初のワークショップの成功に基づいて、AfricAIED 2024は、ガーナのNational Science & Maths Quiz(NSMQ)の準備の民主化に焦点を当てた、オンラインAIハッカソンを特徴とする。 参加者は、Brilla AIプロジェクトからのリソースを活用して、学術的な分野をレベル付けし、アフリカ全体での科学と数学の教育を強化する、オープンソースのAIツールを作成する。 ワークショップでは、競争相手のソリューションを展示し、アフリカにおけるAIEDの機会と課題に関する議論を招待し、AI教育統合の最新の進歩を強調する。 AfricAIED 2024は、コラボレーションとイノベーションを促進すること、AIEDコミュニティにおけるアフリカの声を増幅すること、そしてAIを通じてアフリカの教育にポジティブな変化をもたらすことを目的としている。

Recent AI advancements offer transformative potential for global education, yet their application often overlooks Africa's unique educational landscape. AfricAIED 2024 will address this gap, spotlighting efforts to develop AI in Education (AIED) systems tailored to Africa's needs. Building on the success of the inaugural workshop, AfricAIED 2024 will feature an online AI Hackathon focused on democratizing preparation for Ghana's National Science & Maths Quiz (NSMQ). Participants will create open-source AI tools leveraging resources from the Brilla AI project to level the academic playing field and enhance science and math education across Africa. The workshop will showcase top competitors' solutions, invite discussions on AIED opportunities and challenges in Africa, and highlight the latest advancements in AI education integration. AfricAIED 2024 aims to foster collaboration and innovation, amplifying African voices in the AIED community and driving positive change in African education through AI.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# 機械学習と3次元ニューロイメージングによる聴覚障害の予測:次元減少と回帰手法の比較分析

Utilizing Machine Learning and 3D Neuroimaging to Predict Hearing Loss: A Comparative Analysis of Dimensionality Reduction and Regression Techniques ( http://arxiv.org/abs/2405.00142v1 )

ライセンス: Link先を確認
Trinath Sai Subhash Reddy Pittala, Uma Maheswara R Meleti, Manasa Thatipamula, (参考訳) 本稿では,脳の灰白質3次元画像における難聴閾値を予測するための機械学習手法について検討した。 我々はその問題を2段階に分けて解決した。 第1フェーズでは、3次元CNNモデルを用いて、遅延空間への高次元入力を減らし、リッチな特徴空間における入力を表現するために元の画像に復号する。 第2フェーズでは、このモデルをリッチな特徴への入力を減らすために使用し、これらの特徴を使用して、聴覚閾値を予測するための標準的な機械学習モデルを訓練した。 我々は、次元減少のための第1フェーズにおけるオートエンコーダと変分オートエンコーダの実験を行い、しきい値の回帰のためのランダムフォレスト、XGBoostおよび多層パーセプトロンを探索した。 与えられたデータセットをトレーニングセットとテストセットに分割し、テストセットでそれぞれPT500とPT4000に対して8.80の範囲と22.57の範囲を達成しました。 他のモデルの中でも最も低いRMSEを多層パーセプトロンで取得した。 我々のアプローチは、高次元のニューロイメージングデータ内の複雑な非線形関係を捉えるために、VAEのユニークな能力を活用している。 我々は、ルート平均二乗誤差(RMSE)に着目し、様々な指標を用いてモデルを厳格に評価した。 その結果,多層ニューラルネットワークモデルの有効性が強調され,精度の点で他の手法よりも優れていた。 本研究は,医療診断におけるデータマイニングの活用を推進し,革新的な機械学習フレームワークによる年齢関連難聴の理解を深めるものである。

In this project, we have explored machine learning approaches for predicting hearing loss thresholds on the brain's gray matter 3D images. We have solved the problem statement in two phases. In the first phase, we used a 3D CNN model to reduce high-dimensional input into latent space and decode it into an original image to represent the input in rich feature space. In the second phase, we utilized this model to reduce input into rich features and used these features to train standard machine learning models for predicting hearing thresholds. We have experimented with autoencoders and variational autoencoders in the first phase for dimensionality reduction and explored random forest, XGBoost and multi-layer perceptron for regressing the thresholds. We split the given data set into training and testing sets and achieved an 8.80 range and 22.57 range for PT500 and PT4000 on the test set, respectively. We got the lowest RMSE using multi-layer perceptron among the other models. Our approach leverages the unique capabilities of VAEs to capture complex, non-linear relationships within high-dimensional neuroimaging data. We rigorously evaluated the models using various metrics, focusing on the root mean squared error (RMSE). The results highlight the efficacy of the multi-layer neural network model, which outperformed other techniques in terms of accuracy. This project advances the application of data mining in medical diagnostics and enhances our understanding of age-related hearing loss through innovative machine-learning frameworks.
翻訳日:2024-05-02 17:26:02 公開日:2024-04-30
# GUing:ビジョンランゲージモデルを用いたモバイルGUI検索エンジン

GUing: A Mobile GUI Search Engine using a Vision-Language Model ( http://arxiv.org/abs/2405.00145v1 )

ライセンス: Link先を確認
Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, Gérard Dray, Walid Maalej, (参考訳) アプリ開発者は、他のアプリのグラフィカルユーザインタフェース(GUI)を、自身のアプリを設計し改善するための重要なインスピレーションの源として使う。 近年,GUIの自動探索によって得られたスクリーンショットデータセットから,特定のテキストクエリに適合するGUI設計を検索する方法が提案されている。 しかし、このようなテキストからGUIへの検索手法は、スクリーンショット中のGUI要素のテキスト情報のみを利用して、アイコンや背景画像などの視覚情報を無視する。 さらに、検索されたスクリーンショットは、アプリ開発者によって操られず、UIページがユーザー認証を必要とするような重要なアプリ機能に欠けることが多い。 これらの制約を克服するため,本論文では,アプリケーションGUIドメインを専門に訓練したビジョン言語モデルであるUIClipに基づくGUI検索エンジンであるGUingを提案する。 このために、私たちは最初にGoogle Playからアプリの紹介画像を収集しました。 そこで我々は,これらの画像からキャプションを分類し,収穫し,抽出する自動パイプラインを開発した。 その中には303万のアプリスクリーンショットが含まれており、そのうち135万がキャプションを持っている。 私たちはこのデータセットを使って新しい視覚言語モデルをトレーニングしました。 我々は、関連する作業や手動実験から、様々なデータセットに対するアプローチを評価した。 その結果,テキストからGUIへの検索では,最大0.69のRecall@10,最大0.91のHIT@10が得られた。 また、GUI分類やSketch-to-GUI検索など他のGUIタスクに対するUIClipの性能についても検討した。

App developers use the Graphical User Interface (GUI) of other apps as an important source of inspiration to design and improve their own apps. In recent years, research suggested various approaches to retrieve GUI designs that fit a certain text query from screenshot datasets acquired through automated GUI exploration. However, such text-to-GUI retrieval approaches only leverage the textual information of the GUI elements in the screenshots, neglecting visual information such as icons or background images. In addition, the retrieved screenshots are not steered by app developers and often lack important app features, e.g. whose UI pages require user authentication. To overcome these limitations, this paper proposes GUing, a GUI search engine based on a vision-language model called UIClip, which we trained specifically for the app GUI domain. For this, we first collected app introduction images from Google Play, which usually display the most representative screenshots selected and often captioned (i.e. labeled) by app vendors. Then, we developed an automated pipeline to classify, crop, and extract the captions from these images. This finally results in a large dataset which we share with this paper: including 303k app screenshots, out of which 135k have captions. We used this dataset to train a novel vision-language model, which is, to the best of our knowledge, the first of its kind in GUI retrieval. We evaluated our approach on various datasets from related work and in manual experiment. The results demonstrate that our model outperforms previous approaches in text-to-GUI retrieval achieving a Recall@10 of up to 0.69 and a HIT@10 of 0.91. We also explored the performance of UIClip for other GUI tasks including GUI classification and Sketch-to-GUI retrieval with encouraging results.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# 表面コードマジックステートファクトリーにおけるマルチキュービットバーストエラーの回避

Averting multi-qubit burst errors in surface code magic state factories ( http://arxiv.org/abs/2405.00146v1 )

ライセンス: Link先を確認
Jason D. Chadwick, Christopher Kang, Joshua Viszlai, Sophia Fuhui Lin, Frederic T. Chong, (参考訳) フォールトトレラント量子計算は、時間不変で十分に低い物理誤差率の仮定に依存する。 しかし、現在の超伝導量子コンピュータは、宇宙線の影響や2レベルのシステム欠陥のシフトなど、頻繁に破壊的なノイズに悩まされている。 ソフトウェアにおけるこれらの問題を緩和するためにいくつかの方法が提案されているが、バーストエラーイベントによる論理情報の保存が困難であるため、物理キュービット数の観点から大きなオーバーヘッドが加えられている。 我々は、将来の量子プログラムの空間コストの最大95%を占めると期待されているマジックステートファクトリーにおけるマルチキュービットバーストエラーの軽減に焦点をあてる。 私たちの重要な洞察は、マジックステートファクトリは、時間とともに論理的な情報を保存する必要はないということです。局所的な物理的エラー率の増加を検知すれば、影響を受けるファクトリの一部をオフにし、工場を新しいチップ幾何学に再マップし、運用を続けることができます。 これは従来の一般的な方法よりもはるかに効率的で、同時的な影響イベントでも耐性がある。 高精度な物理ノイズモデルを用いて、効率的な光線検出法を示し、異なる雑音環境下での戦略を評価する。 既存のベースラインと比較して、光照射によるオーバーヘッドを数桁減少させ、ノイズモデルによる総クビットサイクルコストを6.5倍から13.9倍に削減する。 この作業は、これらのエラーを低オーバーヘッドソフトウェアで軽減することで、ハードウェアの負担を軽減する。

Fault-tolerant quantum computation relies on the assumption of time-invariant, sufficiently low physical error rates. However, current superconducting quantum computers suffer from frequent disruptive noise events, including cosmic ray impacts and shifting two-level system defects. Several methods have been proposed to mitigate these issues in software, but they add large overheads in terms of physical qubit count, as it is difficult to preserve logical information through burst error events. We focus on mitigating multi-qubit burst errors in magic state factories, which are expected to comprise up to 95% of the space cost of future quantum programs. Our key insight is that magic state factories do not need to preserve logical information over time; once we detect an increase in local physical error rates, we can simply turn off parts of the factory that are affected, re-map the factory to the new chip geometry, and continue operating. This is much more efficient than previous more general methods, and is resilient even under many simultaneous impact events. Using precise physical noise models, we show an efficient ray detection method and evaluate our strategy in different noise regimes. Compared to existing baselines, we find reductions in ray-induced overheads by several orders of magnitude, reducing total qubitcycle cost by geomean 6.5x to 13.9x depending on the noise model. This work reduces the burden on hardware by providing low-overhead software mitigation of these errors.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# チップ上の可逆的全光論理ゲート

An Invertible All-optical Logic Gate on Chip ( http://arxiv.org/abs/2405.00150v1 )

ライセンス: Link先を確認
Zhan Li, Jiayang Chen, Yongmeng Sua, Zhaohui Ma, Chao Tang, Yu-ping Huang, (参考訳) チップ上の可逆な全光ゲートを、ゲートでの相対到着時間をわずかに調整することで、制御と信号の切り換えが可能であることを示す。 周期配置したニオブ酸リチウムマイクロリング共振器において、総周波発生によって駆動される量子ゼノブロッキングに基づいている。 2つのほぼ同一のナノ秒パルスに対して、後続のパルスは、先行するパルスによって変調され、ピーク電力が1mWと2mWの場合に、それぞれ2.4と3.9の電力が消滅する。 その結果,エキゾチックな応用のための論理ゲートと回路の新たなパラダイムが得られた。

We demonstrate an invertible all-optical gate on chip, with the roles of control and signal switchable by slightly adjusting their relative arrival time at the gate. It is based on quantum Zeno blockade driven by sum-frequency generation in a periodic-poled lithium niobate microring resonator. For two nearly-identical nanosecond pulses, the later arriving pulse is modulated by the earlier arriving one, resulting in 2.4 and 3.9 power extinction between the two, respectively, when their peak power is 1 mW and 2 mW. Our results, while to be improved and enriched, herald a new paradigm of logical gates and circuits for exotic applications.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# HistNERo: ルーマニア語における歴史的名前付きエンティティ認識

HistNERo: Historical Named Entity Recognition for the Romanian Language ( http://arxiv.org/abs/2405.00155v1 )

ライセンス: Link先を確認
Andrei-Marius Avram, Andreea Iuga, George-Vlad Manolache, Vlad-Cristian Matei, Răzvan-Gabriel Micliuş, Vlad-Andrei Muntean, Manuel-Petru Sorlescu, Dragoş-Andrei Şerban, Adrian-Dinu Urse, Vasile Păiş, Dumitru-Clementin Cercel, (参考訳) この研究はヒストネロ (HistNERo) というルーマニア初の名前付きエンティティ認識 (NER) コーパスを歴史新聞に紹介している。 データセットには323kのテキストトークンが含まれており、20世紀後半(1990年)まで19世紀の半分以上(すなわち1817年)をカバーしている。 8人のルーマニア語話者が5つの名前のエンティティでデータセットに注釈を付けた。 この標本は、ベッサビア、モルダヴィア、トランシルヴァニア、ワラキアの4つの歴史的地域のうちの1つである。 提案したデータセットを用いて,ルーマニアの事前学習言語モデルを用いたNER実験を行った。 その結果,F1スコアは55.69%と厳格であった。 また,新しい領域適応技術により領域間の差を小さくすることで,このコーパスの性能を66.80%の厳密なF1スコアに改善し,絶対的な10%以上の利得を示した。

This work introduces HistNERo, the first Romanian corpus for Named Entity Recognition (NER) in historical newspapers. The dataset contains 323k tokens of text, covering more than half of the 19th century (i.e., 1817) until the late part of the 20th century (i.e., 1990). Eight native Romanian speakers annotated the dataset with five named entities. The samples belong to one of the following four historical regions of Romania, namely Bessarabia, Moldavia, Transylvania, and Wallachia. We employed this proposed dataset to perform several experiments for NER using Romanian pre-trained language models. Our results show that the best model achieved a strict F1-score of 55.69%. Also, by reducing the discrepancies between regions through a novel domain adaption technique, we improved the performance on this corpus to a strict F1-score of 66.80%, representing an absolute gain of more than 10%.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# 水平拡大:長尺胸部X線分類のためのハイブリッド量子伝達学習の実現

Expanding the Horizon: Enabling Hybrid Quantum Transfer Learning for Long-Tailed Chest X-Ray Classification ( http://arxiv.org/abs/2405.00156v1 )

ライセンス: Link先を確認
Skylar Chan, Pranav Kulkarni, Paul H. Yi, Vishwa S. Parekh, (参考訳) 量子機械学習(QML)は、サンプル効率と一般化性において古典的機械学習(CML)よりも理論的に有利なため、大規模胸部X線(CXR)データセットにおける希少かつ致命的な疾患のマルチラベル分類を改善する可能性がある。 以前の文献では、QMLをCXRで調べているが、量子ハードウェアや計算コストのかかるシミュレーションへのアクセスに制限があるため、小さなデータセットを使ったバイナリ分類タスクに重点を置いている。 そのために我々は,現在のソフトウェア製品よりもウォールタイム時間を大幅に改善した,中規模のキュービットアーキテクチャのシミュレーションを可能にするJaxベースのフレームワークを実装した。 我々は,大規模CXRデータセットを用いて,8,14,19の疾患ラベルの長期分類のためのハイブリッド量子トランスファー学習の効率と性能の観点から,Jaxベースのフレームワークの性能を評価した。 Jaxベースのフレームワークは、それぞれPyTorchとTensorFlowの実装と比較して、最大58%と95%のスピードアップを実現した。 しかし, CMLと比較すると, 平均AUROCは0.70, 0.73, 0.74, CXR病ラベルは8, 14, 19であった。 一方、CMLモデルの平均AUROCは0.77、0.78、0.80であった。 結論として,計算効率のよいJaxベースのフレームワークを用いて,長い尾を持つCXR分類のためのハイブリッド量子トランスファー学習の実装を提案する。

Quantum machine learning (QML) has the potential for improving the multi-label classification of rare, albeit critical, diseases in large-scale chest x-ray (CXR) datasets due to theoretical quantum advantages over classical machine learning (CML) in sample efficiency and generalizability. While prior literature has explored QML with CXRs, it has focused on binary classification tasks with small datasets due to limited access to quantum hardware and computationally expensive simulations. To that end, we implemented a Jax-based framework that enables the simulation of medium-sized qubit architectures with significant improvements in wall-clock time over current software offerings. We evaluated the performance of our Jax-based framework in terms of efficiency and performance for hybrid quantum transfer learning for long-tailed classification across 8, 14, and 19 disease labels using large-scale CXR datasets. The Jax-based framework resulted in up to a 58% and 95% speed-up compared to PyTorch and TensorFlow implementations, respectively. However, compared to CML, QML demonstrated slower convergence and an average AUROC of 0.70, 0.73, and 0.74 for the classification of 8, 14, and 19 CXR disease labels. In comparison, the CML models had an average AUROC of 0.77, 0.78, and 0.80 respectively. In conclusion, our work presents an accessible implementation of hybrid quantum transfer learning for long-tailed CXR classification with a computationally efficient Jax-based framework.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# BayesBlend: PythonのPseudo-Bayesianモデル平均化、スタック化、階層的なスタックによる簡易モデルブレンディング

BayesBlend: Easy Model Blending using Pseudo-Bayesian Model Averaging, Stacking and Hierarchical Stacking in Python ( http://arxiv.org/abs/2405.00158v1 )

ライセンス: Link先を確認
Nathaniel Haines, Conor Goold, (参考訳) 複数の競合する推論モデルからの予測の平均は、任意の単一モデルから予測を上回り、予測性能を最大化するためにモデルが最適に重み付けされる。 いわゆる $\mathcal{M}$-open 設定では、真のモデルは候補モデルの集合に含まれておらず、数学的に再現可能でもなく、正確には知られていない。 このモデル平均化の実践は統計学と機械学習に豊富な歴史を持ち、現在、モデル平均化予測分布を構築する際の重みを推定する多くの方法が存在する。 それにもかかわらず、利用可能な様々な方法からモデルウェイトを推定できる既存のソフトウェアパッケージはほとんどなく、モデル予測を推定ウェイトに応じて一貫性のある予測分布にブレンドするものは存在しない。 本稿では,重みを推定し,複数の(ベイジアン)モデルの予測分布をブレンドするユーザフレンドリーなプログラミングインターフェースを提供するBayesBlend Pythonパッケージを紹介する。 ベイズブレンドは、モデルウェイトを推定するために擬ベイズモデルの平均化、積み重ね、一意的に階層的ベイズ積み重ねを実装している。 ベイズブレンドの保険損失モデリングの例を例に紹介する。

Averaging predictions from multiple competing inferential models frequently outperforms predictions from any single model, providing that models are optimally weighted to maximize predictive performance. This is particularly the case in so-called $\mathcal{M}$-open settings where the true model is not in the set of candidate models, and may be neither mathematically reifiable nor known precisely. This practice of model averaging has a rich history in statistics and machine learning, and there are currently a number of methods to estimate the weights for constructing model-averaged predictive distributions. Nonetheless, there are few existing software packages that can estimate model weights from the full variety of methods available, and none that blend model predictions into a coherent predictive distribution according to the estimated weights. In this paper, we introduce the BayesBlend Python package, which provides a user-friendly programming interface to estimate weights and blend multiple (Bayesian) models' predictive distributions. BayesBlend implements pseudo-Bayesian model averaging, stacking and, uniquely, hierarchical Bayesian stacking to estimate model weights. We demonstrate the usage of BayesBlend with examples of insurance loss modeling.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# sat-solver を用いたレビュー過程における高次要求条件の論理解析と矛盾検出

Logical analysis and contradiction detection in high-level requirements during the review process using sat-solver ( http://arxiv.org/abs/2405.00163v1 )

ライセンス: Link先を確認
Simge Yatkın, Tolga Ovatman, (参考訳) DO-178Cは航空システム開発プロセスの指針として注目されている。 この標準は、ソフトウェア検証プロセスにおける要求の整合性の確保を義務付けるだけでなく、必須要素として認識する。 本研究の目的は,データ辞書から得られる情報を用いて,高レベルの要件間の不整合を分析し,識別する手法を提案することである。 本手法は,高レベル要件を論理式に変換し,SATソルバーを用いて不整合を検出することを目的としている。 本研究は,非自然言語,体系的構造化,言語に依存しない要求の矛盾を検出する新しい手法を提案する。 このアプローチの目的は、ソフトウェア検証プロセスにおけるハイレベルな要求のレビュー時間を著しく短縮することである。 また, この手法を用いることで, 不整合検出プロセスにおいてかなりの時間を節約できることが示唆された。

DO-178C stands out as a guiding standard for aviation system development processes. This standard not only mandates ensuring the consistency of requirements in the software verification process but also recognizes it as a mandatory element. The main objective of this study is to introduce a method for analyzing and identifying inconsistencies between high-level requirements using information obtained from a data dictionary. This method aims to transform high-level requirements into logical expressions and then thoroughly examine them using a SAT Solver to detect inconsistencies. While methods focused on identifying inconsistencies among requirements often appear in the literature, this study presents a novel approach to detect contradictions between non-natural language, systematically structured, and language-independent requirements. The goal of this approach is to significantly reduce the review time of high-level requirements in the software verification process. Evaluations indicate that the use of this method results in substantial time savings in the inconsistency detection process.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# 物理インフォームドニューラルネットワークを用いた内在型マルチコンパートメント薬理モデルの検出

Discovering intrinsic multi-compartment pharmacometric models using Physics Informed Neural Networks ( http://arxiv.org/abs/2405.00166v1 )

ライセンス: Link先を確認
Imran Nasim, Adam Nasim, (参考訳) 薬理学モデルは、薬物の発見と開発において中心的な役割を担い、候補分子の進行を決定する決定的な役割を担っている。 しかしながら、このシステムを管理する数学的方程式の導出は労働集約的な試行錯誤プロセスであり、しばしば厳密なタイムラインによって制約される。 本研究では、純粋にデータ駆動型薬物動態インフォームドニューラルネットワークモデルであるPKINNを紹介する。 PKINNは、本質的なマルチコンパートメントベースの薬理学構造を効率的に発見し、モデル化し、それらの誘導体を確実に予測する。 得られたモデルは、シンボリック回帰法によって解釈可能であり、説明可能である。 我々の計算フレームワークは、従来のモデル導出の労働集約的な性質に対処し、薬理学応用におけるクローズドフォームモデル発見の可能性を示す。 大規模なデータセットが利用可能になるにつれて、このフレームワークはモデルインフォームドドラッグ発見を大幅に強化する可能性を秘めている。

Pharmacometric models are pivotal across drug discovery and development, playing a decisive role in determining the progression of candidate molecules. However, the derivation of mathematical equations governing the system is a labor-intensive trial-and-error process, often constrained by tight timelines. In this study, we introduce PKINNs, a novel purely data-driven pharmacokinetic-informed neural network model. PKINNs efficiently discovers and models intrinsic multi-compartment-based pharmacometric structures, reliably forecasting their derivatives. The resulting models are both interpretable and explainable through Symbolic Regression methods. Our computational framework demonstrates the potential for closed-form model discovery in pharmacometric applications, addressing the labor-intensive nature of traditional model derivation. With the increasing availability of large datasets, this framework holds the potential to significantly enhance model-informed drug discovery.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# モダリティの妥当性の観点からのRGBT追跡ベンチマークの再検討:新しいベンチマーク,問題,方法

Revisiting RGBT Tracking Benchmarks from the Perspective of Modality Validity: A New Benchmark, Problem, and Method ( http://arxiv.org/abs/2405.00168v1 )

ライセンス: Link先を確認
Zhangyong Tang, Tianyang Xu, Zhenhua Feng, Xuefeng Zhu, He Wang, Pengcheng Shao, Chunyang Cheng, Xiao-Jun Wu, Muhammad Awais, Sara Atito, Josef Kittler, (参考訳) RGBT追跡は、夜間や悪天候のようなマルチモーダル保証(MMW)シナリオの堅牢性によって注目される。 しかし、既存のベンチマークは主にRGBと熱赤外(TIR)の両方が十分な品質である一般的なシナリオで収集されたビデオで構成されている。 これにより、データは厳しい撮像条件を表現できず、MMWシナリオにおける障害の追跡につながる。 このギャップを埋めるために、MMWシナリオに特化されたMV-RGBTという新しいベンチマークを提示する。 既存のデータセットとは対照的に、MV-RGBTはより多くのオブジェクトカテゴリとシーンで構成されており、多様で挑戦的なベンチマークを提供する。 さらに、MMWシナリオの厳しい撮像条件においては、これらのデータに対する融合戦略の開発を促進するために、新しい問題、すなわち「textit{when to fuse}」が提示される。 ベースライン融合戦略として,MoETrackと呼ばれる専門家の混在に基づく新たな手法を提案する。 MoETrackでは、各専門家は、融合プロセスを制御するために使用される、対応する信頼スコアとともに、独立したトラッキング結果を生成する。 MV-RGBTがRGBT追跡を前進させる可能性を示し,特にMMWシナリオにおいて核融合は必ずしも有用ではないという結論を導いた。 提案したMoETrack法は,MV-RGBTだけでなく,RGBT234,LasHeR,VTUAV(VTUAV-ST)の短期分割といった標準ベンチマークにも適用可能である。 MV-RGBTの詳細とMoETrackのソースコードはhttps://github.com/Zhangyong-Tang/MoETrackで公開される。

RGBT tracking draws increasing attention due to its robustness in multi-modality warranting (MMW) scenarios, such as nighttime and bad weather, where relying on a single sensing modality fails to ensure stable tracking results. However, the existing benchmarks predominantly consist of videos collected in common scenarios where both RGB and thermal infrared (TIR) information are of sufficient quality. This makes the data unrepresentative of severe imaging conditions, leading to tracking failures in MMW scenarios. To bridge this gap, we present a new benchmark, MV-RGBT, captured specifically in MMW scenarios. In contrast with the existing datasets, MV-RGBT comprises more object categories and scenes, providing a diverse and challenging benchmark. Furthermore, for severe imaging conditions of MMW scenarios, a new problem is posed, namely \textit{when to fuse}, to stimulate the development of fusion strategies for such data. We propose a new method based on a mixture of experts, namely MoETrack, as a baseline fusion strategy. In MoETrack, each expert generates independent tracking results along with the corresponding confidence score, which is used to control the fusion process. Extensive experimental results demonstrate the significant potential of MV-RGBT in advancing RGBT tracking and elicit the conclusion that fusion is not always beneficial, especially in MMW scenarios. Significantly, the proposed MoETrack method achieves new state-of-the-art results not only on MV-RGBT, but also on standard benchmarks, such as RGBT234, LasHeR, and the short-term split of VTUAV (VTUAV-ST). More information of MV-RGBT and the source code of MoETrack will be released at https://github.com/Zhangyong-Tang/MoETrack.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# スキップグラム負サンプリングの再検討:グラフ埋め込みにおけるより効率的な相似性保存のための次元正規化

Re-visiting Skip-Gram Negative Sampling: Dimension Regularization for More Efficient Dissimilarity Preservation in Graph Embeddings ( http://arxiv.org/abs/2405.00172v1 )

ライセンス: Link先を確認
David Liu, Arjun Seshadri, Tina Eliassi-Rad, Johan Ugander, (参考訳) グラフの埋め込み目的は、類似していると見なされるノードの埋め込みを惹きつけるものと、異なると見なされるノードの埋め込みを反映するものの2つのコンポーネントに分解される。 実世界のグラフはスパースであり、相似ペアの数はノード数と2次的に増加するので、Skip-Gram Negative Sampling (SGNS) は人気があり効率的な反発法として現れている。 SGNSは、全ての異種ノードとは対照的に、異種ノードのサンプルから各ノードを中継する。 本研究では, ノードワイド反発が, 集約的に, ノード埋め込み次元の近似的再中心化であることを示す。 このような次元演算はノード演算よりもはるかにスケーラブルである。 次元的アプローチは、より効率的であることに加えて、反発のより単純な幾何学的解釈をもたらす。 本研究は,自己教師型学習文献からスキップグラムモデルまでの結果を拡張し,スキップグラムノードコントラストと次元正規化の関連性を確立した。 より穏やかな正則性条件下では、大きなグラフの極限において、元のノード反発目標が次元正則化による最適化に収束することを示す。 本稿では,SGNSを用いて既存のアルゴリズムを高速化するアルゴリズム拡張フレームワークを提案する。 このフレームワークはノードアトラクションを優先し、SGNSを次元正規化で置き換える。 LINE と node2vec の汎用フレームワークをインスタンス化し、拡張アルゴリズムが下流のパフォーマンスを劇的に向上させながら維持することを示す。

A wide range of graph embedding objectives decompose into two components: one that attracts the embeddings of nodes that are perceived as similar, and another that repels embeddings of nodes that are perceived as dissimilar. Because real-world graphs are sparse and the number of dissimilar pairs grows quadratically with the number of nodes, Skip-Gram Negative Sampling (SGNS) has emerged as a popular and efficient repulsion approach. SGNS repels each node from a sample of dissimilar nodes, as opposed to all dissimilar nodes. In this work, we show that node-wise repulsion is, in aggregate, an approximate re-centering of the node embedding dimensions. Such dimension operations are much more scalable than node operations. The dimension approach, in addition to being more efficient, yields a simpler geometric interpretation of the repulsion. Our result extends findings from the self-supervised learning literature to the skip-gram model, establishing a connection between skip-gram node contrast and dimension regularization. We show that in the limit of large graphs, under mild regularity conditions, the original node repulsion objective converges to optimization with dimension regularization. We use this observation to propose an algorithm augmentation framework that speeds up any existing algorithm, supervised or unsupervised, using SGNS. The framework prioritizes node attraction and replaces SGNS with dimension regularization. We instantiate this generic framework for LINE and node2vec and show that the augmented algorithms preserve downstream performance while dramatically increasing efficiency.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# 機械の検索エンジンに向けて:複数検索型大規模言語モデルのための統一ランク付け

Towards a Search Engine for Machines: Unified Ranking for Multiple Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.00175v1 )

ライセンス: Link先を確認
Alireza Salemi, Hamed Zamani, (参考訳) 本稿では,複数の下流検索拡張生成(RAG)システムを実現する統一検索エンジンを備えたフレームワークであるuRAGを紹介する。 各RAGシステムは、オープンドメイン質問応答、事実検証、エンティティリンク、関係抽出など、独自の目的のために検索結果を消費する。 本稿では,検索モデルの最適化に係わる検索エンジンと下流RAGシステム間の通信を標準化する汎用的なトレーニングガイドラインを提案する。 これにより、トレーニングに従事する18のRAGシステムと、uRAGを検索エンジンの新規ユーザとして使用する18の未知のRAGシステムからなる大規模な実験エコシステムを構築するための基盤となる。 この実験エコシステムを利用することで、機械の検索エンジン開発における約束や課題の理解を深める、いくつかの基本的な研究課題に答える。

This paper introduces uRAG--a framework with a unified retrieval engine that serves multiple downstream retrieval-augmented generation (RAG) systems. Each RAG system consumes the retrieval results for a unique purpose, such as open-domain question answering, fact verification, entity linking, and relation extraction. We introduce a generic training guideline that standardizes the communication between the search engine and the downstream RAG systems that engage in optimizing the retrieval model. This lays the groundwork for us to build a large-scale experimentation ecosystem consisting of 18 RAG systems that engage in training and 18 unknown RAG systems that use the uRAG as the new users of the search engine. Using this experimentation ecosystem, we answer a number of fundamental research questions that improve our understanding of promises and challenges in developing search engines for machines.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# ビデオ異常の因果理解のための総合的ベンチマーク

Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly ( http://arxiv.org/abs/2405.00181v1 )

ライセンス: Link先を確認
Hang Du, Sicheng Zhang, Binzhu Xie, Guoshun Nan, Jiayang Zhang, Junrui Xu, Hangyu Liu, Sicong Leng, Jiangming Liu, Hehe Fan, Dajiu Huang, Jing Feng, Linli Chen, Can Zhang, Xuhuan Li, Hao Zhang, Jianhang Chen, Qimei Cui, Xiaofeng Tao, (参考訳) ビデオ異常理解(VAU)は、ビデオにおける異常な事象を自動的に理解することを目的としており、交通監視や工業製造などの様々な応用を可能にする。 既存のVAUベンチマークは主に異常検出とローカライゼーションに重点を置いているが、より実践性を重視しており、"異常発生"、"なぜ発生したのか?"、"この異常発生はどの程度深刻なのか? これらの回答を追求するために,ビデオ異常の因果理解のための総合的ベンチマーク(CUVA)を提案する。 具体的には、提案されたベンチマークの各インスタンスは、異常の"What"、"why"、"how"の3つのアノテーションセットを含む。 1)異常型,開始時期及び終了時期,及びイベント記述 2 異常の原因に関する自然言語の説明及び 3) 異常の影響を反映した自由テキスト。 また,CUVAに対するヒトの嗜好に適合する新しい評価指標であるMMEvalを導入し,ビデオ異常の原因とそれに対応する効果を理解する上で,既存のLCMの測定を容易にする。 最後に,挑戦的CUVAのベースラインとして機能する新しいプロンプトベースの手法を提案する。 評価基準の優越性と即時的アプローチを示すため,広範囲な実験を行った。 私たちのコードとデータセットはhttps://github.com/fesvhtr/CUVA.comで公開されています。

Video anomaly understanding (VAU) aims to automatically comprehend unusual occurrences in videos, thereby enabling various applications such as traffic surveillance and industrial manufacturing. While existing VAU benchmarks primarily concentrate on anomaly detection and localization, our focus is on more practicality, prompting us to raise the following crucial questions: "what anomaly occurred?", "why did it happen?", and "how severe is this abnormal event?". In pursuit of these answers, we present a comprehensive benchmark for Causation Understanding of Video Anomaly (CUVA). Specifically, each instance of the proposed benchmark involves three sets of human annotations to indicate the "what", "why" and "how" of an anomaly, including 1) anomaly type, start and end times, and event descriptions, 2) natural language explanations for the cause of an anomaly, and 3) free text reflecting the effect of the abnormality. In addition, we also introduce MMEval, a novel evaluation metric designed to better align with human preferences for CUVA, facilitating the measurement of existing LLMs in comprehending the underlying cause and corresponding effect of video anomalies. Finally, we propose a novel prompt-based method that can serve as a baseline approach for the challenging CUVA. We conduct extensive experiments to show the superiority of our evaluation metric and the prompt-based approach. Our code and dataset are available at https://github.com/fesvhtr/CUVA.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# M-DEW: ダイナミックアンサンブルウェイトを拡張してミス値を処理する

M-DEW: Extending Dynamic Ensemble Weighting to Handle Missing Values ( http://arxiv.org/abs/2405.00182v1 )

ライセンス: Link先を確認
Adam Catto, Nan Jia, Ansaf Salleb-Aouissi, Anita Raja, (参考訳) 値計算の欠如は多くの機械学習問題にとって重要な前処理ステップである。 しかし、しばしば分類、回帰、クラスタリングといった下流アプリケーションとは別のサブタスクと見なされるため、それらと共に最適化されない。 我々は、計算モデルと下流タスクモデルを一緒に扱い、完全なパイプラインを最適化することで、個別に扱うよりも良い結果が得られると仮定する。 我々の研究は、プリプロセス、モデルの重み付け、推論時間中の選択を自動的に処理し、最小の計算オーバーヘッドでダウンストリーム予測を行う新しいAutoML技術について説明している。 具体的には,M-DEW(Dynamic missingness-aware Ensemble Weighting, DEW)アプローチを開発し,2段階のインプット予測パイプラインのセットを構築し,各コンポーネントを個別に訓練し,各サンプルの推論時間におけるパイプライン重みのセットを動的に計算する。 これにより、従来のダイナミックアンサンブル重み付けの作業を拡張し、完全な計算予測パイプラインのレベルで欠落したデータを処理し、標準モデル平均化技術よりも下流機械学習タスクのパフォーマンスとキャリブレーションを改善した。 M-DEWは18実験中17実験において、モデルパープレキシティの統計的に有意な低減を実現し、平均精度を18実験中13実験で改善している。

Missing value imputation is a crucial preprocessing step for many machine learning problems. However, it is often considered as a separate subtask from downstream applications such as classification, regression, or clustering, and thus is not optimized together with them. We hypothesize that treating the imputation model and downstream task model together and optimizing over full pipelines will yield better results than treating them separately. Our work describes a novel AutoML technique for making downstream predictions with missing data that automatically handles preprocessing, model weighting, and selection during inference time, with minimal compute overhead. Specifically we develop M-DEW, a Dynamic missingness-aware Ensemble Weighting (DEW) approach, that constructs a set of two-stage imputation-prediction pipelines, trains each component separately, and dynamically calculates a set of pipeline weights for each sample during inference time. We thus extend previous work on dynamic ensemble weighting to handle missing data at the level of full imputation-prediction pipelines, improving performance and calibration on downstream machine learning tasks over standard model averaging techniques. M-DEW is shown to outperform the state-of-the-art in that it produces statistically significant reductions in model perplexity in 17 out of 18 experiments, while improving average precision in 13 out of 18 experiments.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# 能力

Capabilities ( http://arxiv.org/abs/2405.00183v1 )

ライセンス: Link先を確認
John Beverley, Peter M. Koch, David Limbaugh, Barry Smith, (参考訳) 私たちの日常生活では、科学や他のすべての領域と同様に、くしゃみ、汗をかいて、ダンダフを流すといったプロセスで実現される膨大な数の配置(傾向、ポテンシャル、力)に遭遇します。 氷の上で運転するときに、車がうまく反応すること、オオカミに追われて、ウサギの肺がうまく反応すること、などの認識を持つ、単なる配置のサブセットだと考えられます。 例えば,現在サイロ化方式で収集されている領域において,オントロジーに基づく研究に有用な拡張を提供することによって,さまざまな目的を達成するのに十分な汎用性を持つ能力について,ロバストなオントロジー的説明を提供しようとしている。

In our daily lives, as in science and in all other domains, we encounter huge numbers of dispositions (tendencies, potentials, powers) which are realized in processes such as sneezing, sweating, shedding dandruff, and on and on. Among this plethora of what we can think of as mere dispositions is a subset of dispositions in whose realizations we have an interest a car responding well when driven on ice, a rabbits lungs responding well when it is chased by a wolf, and so on. We call the latter capabilities and we attempt to provide a robust ontological account of what capabilities are that is of sufficient generality to serve a variety of purposes, for example by providing a useful extension to ontology-based research in areas where capabilities data are currently being collected in siloed fashion.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# 局所情報に基づく半教師付き階層型マルチラベル分類器

Semi-Supervised Hierarchical Multi-Label Classifier Based on Local Information ( http://arxiv.org/abs/2405.00184v1 )

ライセンス: Link先を確認
Jonathan Serrano-Pérez, L. Enrique Sucar, (参考訳) ラベル付きデータの空白化は、手書きのラベル付けに時間がかかり、高価で、ラベル付けが難しいため、教師付き分類では一般的な問題である。 ラベル付きデータの不足という問題は、階層的な分類においてさらに悪名高い。 本研究では,局所情報(SSHMC-BLI)に基づく半教師付き階層型多ラベル分類器を提案する。 ここでは、最も難しいケースであるDAG型の階層に焦点をあて、内部ノードで完了可能なラベルの複数のパスにインスタンスを関連付けることができる。 SSHMC-BLIは、ラベル付き隣人のラベルのパスから、ラベルなしのインスタンスごとに擬似ラベルを構築する。 機能ゲノミクスによる12の挑戦的データセットの実験では、ラベル付きデータとラベル付きデータとを併用することで、統計的に有意であっても、ラベル付きデータのみに基づいてトレーニングされた教師付き階層型分類器のパフォーマンスを向上させることができる。

Scarcity of labeled data is a common problem in supervised classification, since hand-labeling can be time consuming, expensive or hard to label; on the other hand, large amounts of unlabeled information can be found. The problem of scarcity of labeled data is even more notorious in hierarchical classification, because the data of a node is split among its children, which results in few instances associated to the deepest nodes of the hierarchy. In this work it is proposed the semi-supervised hierarchical multi-label classifier based on local information (SSHMC-BLI) which can be trained with labeled and unlabeled data to perform hierarchical classification tasks. The method can be applied to any type of hierarchical problem, here we focus on the most difficult case: hierarchies of DAG type, where the instances can be associated to multiple paths of labels which can finish in an internal node. SSHMC-BLI builds pseudo-labels for each unlabeled instance from the paths of labels of its labeled neighbors, while it considers whether the unlabeled instance is similar to its neighbors. Experiments on 12 challenging datasets from functional genomics show that making use of unlabeled along with labeled data can help to improve the performance of a supervised hierarchical classifier trained only on labeled data, even with statistical significance.
翻訳日:2024-05-02 17:16:17 公開日:2024-04-30
# 職業オントロジーにおけるクレデンシャル

Credentials in the Occupation Ontology ( http://arxiv.org/abs/2405.00186v1 )

ライセンス: Link先を確認
John Beverley, Robin McGill, Sam Smith, Jie Zheng, Giacomo De Colle, Finn Wilson, Matthew Diller, William D. Duncan, William R. Hogan, Yongqun He, (参考訳) 資格は、教育証明書、学位、資格、政府発行の免許を含む。 職業資格は、関連する権限を有する第三者が発行する個人資格又は能力の検証である。 求職者は、しばしば、希望する資格が保有者によって満足される証拠として、そのような資格を活用できる。 多くのアメリカの教育と労働開発組織は、雇用における資格の重要性と、資格の価値を理解することの難しさを認識している。 本研究では,BFOをベースとしたオントロジーであるOccO(OccO)に基づいて,テキスト・セマンティックレベルで,資格・資格関連用語を同定し,存在論的に定義した。 異なるクレデンシャルタイプとその認証ロジックがモデル化されている。 さらに,学習者,学士,雇用者,教育・教育機関を資格と技能で結びつけることを目的とした,アラバマ・タレント・トライアド(ATT)プログラムと協調して開始された,資格関連用語・関係の高水準階層を定義した。 本研究は,認証情報の重要領域とその関連内容の体系的オントロジモデリングを初めて提供し,将来的な認証データと知識統合の強化を支援する。

The term credential encompasses educational certificates, degrees, certifications, and government-issued licenses. An occupational credential is a verification of an individuals qualification or competence issued by a third party with relevant authority. Job seekers often leverage such credentials as evidence that desired qualifications are satisfied by their holders. Many U.S. education and workforce development organizations have recognized the importance of credentials for employment and the challenges of understanding the value of credentials. In this study, we identified and ontologically defined credential and credential-related terms at the textual and semantic levels based on the Occupation Ontology (OccO), a BFO-based ontology. Different credential types and their authorization logic are modeled. We additionally defined a high-level hierarchy of credential related terms and relations among many terms, which were initiated in concert with the Alabama Talent Triad (ATT) program, which aims to connect learners, earners, employers and education/training providers through credentials and skills. To our knowledge, our research provides for the first time systematic ontological modeling of the important domain of credentials and related contents, supporting enhanced credential data and knowledge integration in the future.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# セマンティック配向整合変換器を用いた端端端端端の半教師付きテーブル検出に向けて

Towards End-to-End Semi-Supervised Table Detection with Semantic Aligned Matching Transformer ( http://arxiv.org/abs/2405.00187v1 )

ライセンス: Link先を確認
Tahira Shehzadi, Shalini Sarode, Didier Stricker, Muhammad Zeshan Afzal, (参考訳) 文書画像内のテーブル検出は、テーブルの識別とローカライゼーションを含む文書処理において重要なタスクである。 ディープラーニングの最近の進歩は、このタスクの精度を大幅に向上させたが、それでも効果的なトレーニングのために、大きなラベル付きデータセットに大きく依存している。 いくつかの半監督的なアプローチがこの課題を克服するために現れており、しばしばCNNベースの検出器とアンカーの提案、非最大抑圧(NMS)のような後処理技術を用いている。 しかし、近年のこの分野の進歩はトランスフォーマーベースの技術に焦点を移し、NMSの必要性を排除し、オブジェクトクエリやアテンションメカニズムを強調している。 従来の研究は、オブジェクトクエリの品質の精細化と注意機構の最適化という、トランスフォーマーベースの検出器を改善するための2つの重要な領域に焦点を当ててきた。 しかし、オブジェクトクエリの増加は冗長性を導入し、注意機構の調整は複雑さを増す可能性がある。 これらの課題に対処するため,SAM-DETRを用いた半教師付きアプローチを導入する。 提案手法は, 表構造が多様である複雑な文書において, 偽陽性の顕著な低減と, 表検出性能の大幅な向上を示すものである。 この作業は、半教師付き設定でより効率的で正確なテーブル検出を提供する。

Table detection within document images is a crucial task in document processing, involving the identification and localization of tables. Recent strides in deep learning have substantially improved the accuracy of this task, but it still heavily relies on large labeled datasets for effective training. Several semi-supervised approaches have emerged to overcome this challenge, often employing CNN-based detectors with anchor proposals and post-processing techniques like non-maximal suppression (NMS). However, recent advancements in the field have shifted the focus towards transformer-based techniques, eliminating the need for NMS and emphasizing object queries and attention mechanisms. Previous research has focused on two key areas to improve transformer-based detectors: refining the quality of object queries and optimizing attention mechanisms. However, increasing object queries can introduce redundancy, while adjustments to the attention mechanism can increase complexity. To address these challenges, we introduce a semi-supervised approach employing SAM-DETR, a novel approach for precise alignment between object queries and target features. Our approach demonstrates remarkable reductions in false positives and substantial enhancements in table detection performance, particularly in complex documents characterized by diverse table structures. This work provides more efficient and accurate table detection in semi-supervised settings.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# ボソニック・ランダム・マトリクス・アンサンブルにおける最低固有値分布

Distribution of lowest eigenvalue in $k$-body bosonic random matrix ensembles ( http://arxiv.org/abs/2405.00190v1 )

ライセンス: Link先を確認
N. D. Chavda, Priyanka Rao, V. K. B. Kota, Manan Vyas, (参考訳) ボソニック埋め込みガウスオルソゴン [BEGOE($k$)] とユニタリ [BEGUE($k$)] ランダム行列アンサンブルによってモデル化された$k$ボディ相互作用を持つ有限多ボソン系の最小固有値分布を数値的に研究する。 最近確立された$q$-normalは、$k$-body埋め込みアンサンブルの固有値密度の滑らかな形を記述しており、最低固有値の分布の最初の4つのモーメントは、$q$パラメータの関数として分析され、$q \sim 1$ for $k = 1$と$q = 0$ for $k = m$; $m$はボゾンの数である。 以上の結果から, ガウス分布は 1 に近い$q$ のガウス分布から, 中間値が$q$ のガウベル分布へ, 良く知られた Tracy-Widom 分布が$q=0$ のガウス分布へ滑らかな遷移を示した。

We numerically study the distribution of the lowest eigenvalue of finite many-boson systems with $k$-body interactions modeled by Bosonic Embedded Gaussian Orthogonal [BEGOE($k$)] and Unitary [BEGUE($k$)] random matrix Ensembles. Following the recently established result that the $q$-normal describes the smooth form of the eigenvalue density of the $k$-body embedded ensembles, the first four moments of the distribution of lowest eigenvalues have been analyzed as a function of the $q$ parameter, with $q \sim 1$ for $k = 1$ and $q = 0$ for $k = m$; $m$ being the number of bosons. Our results show the distribution exhibits a smooth transition from Gaussian like for $q$ close to 1 to a modified Gumbel like for intermediate values of $q$ to the well-known Tracy-Widom distribution for $q=0$.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# リソース・コンパクト時最適量子計算

Resource-compact time-optimal quantum computation ( http://arxiv.org/abs/2405.00191v1 )

ライセンス: Link先を確認
Taewan Kim, Kyunghyun Baek, Yongsoo Hwang, Jeongho Bang, (参考訳) フォールトトレラント量子計算は、信頼性の高い量子計算を可能にするが、時間と資源の両方の観点から大きなオーバーヘッドを引き起こす。 計算時間を短縮するため、オースチン・G・ファウラー(Austin G. Fowler)は、フォールトトレラントな$T$ゲートの量子回路を確率的に$S$ゲート補正せずに構築することで、時間最適量子計算を提案した。 本研究では,耐故障性のある$T$ゲートに対して,確率的$S$ゲート補正を伴わずに,リソース要求を60%以上削減する,リソース適合型量子回路を提案する。 その結果、時間-最適量子計算の資源利用を最小化し、効率的な時間-最適量子計算を実証する量子回路を提案する。 さらに、初期化、CNOT、測定を含む効率的な形式を記述し、フォールトトレラント量子計算のための効率的なコンパイラの開発の基礎を築いた。

Fault-tolerant quantum computation enables reliable quantum computation but incurs a significant overhead from both time and resource perspectives. To reduce computation time, Austin G. Fowler proposed time-optimal quantum computation by constructing a quantum circuit for a fault-tolerant $T$ gate without probabilistic $S$ gate correction. In this work, we introduce a resource-compact quantum circuit that significantly reduces resource requirements by more than 60% for a fault-tolerant $T$ gate without probabilistic $S$ gate correction. Consequently, we present a quantum circuit that minimizes resource utilization for time-optimal quantum computation, demonstrating efficient time-optimal quantum computation. Additionally, we describe an efficient form involving initialization, CNOTs, and measurements, laying the foundation for the development of an efficient compiler for fault-tolerant quantum computation.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# Δ$-machine 学習電位を持つソードガウス波束ダイナミクス

Thawed Gaussian wavepacket dynamics with $Δ$-machine learned potentials ( http://arxiv.org/abs/2405.00193v1 )

ライセンス: Link先を確認
Rami Gherib, Ilya G. Ryabinkin, Scott N. Genin, (参考訳) 機械学習電位に対する可変幅(ソード)ガウス波束(GWP)変動ダイナミクスを実行する方法を提案する。 ポテンシャルエネルギー面(PES)を適合させる代わりに、大域高調波近似(GHA)に対するアンハーモニック補正は、カーネルリッジ回帰(英語版)を用いて適合する。 トレーニングセットは、ab初期電子エネルギーとGHAが与える値のエネルギー差で構成されている。 その後、学習されたポテンシャルは、時間依存の変動原理を用いて単一のソードGWPを伝播して自己相関関数を計算し、フーリエ変換を介してビブロニックスペクトルに直接アクセスする。 本研究では, アンモニアの光電子スペクトルをシミュレートする手法を適用し, 理論スペクトルと実験スペクトルとの良好な一致を見出した。 無調波補正を行うには、全電子エネルギーを適合させるよりも、トレーニングセットが小さいことが示される。 また,本手法により,トレーニングセットを構築する際にPSSを走査するために使用する核空間の次元性を低減できることを示す。 したがって、大きな振幅運動に関連する自由度のみが、大きなフロッピー分子のビブロニックスペクトルの信頼できるシミュレーション方法である$\Delta$-machine Learningで扱われる必要がある。

A method for performing variable-width (thawed) Gaussian wavepacket (GWP) variational dynamics on machine-learned potentials is presented. Instead of fitting the potential energy surface (PES), the anharmonic correction to the global harmonic approximation (GHA) is fitted using kernel ridge regression -- this is a $\Delta$-machine learning approach. The training set consists of energy differences between ab initio electronic energies and values given by the GHA. The learned potential is subsequently used to propagate a single thawed GWP using the time-dependent variational principle to compute the autocorrelation function, which provides direct access to vibronic spectra via its Fourier transform. We applied the developed method to simulate the photoelectron spectrum of ammonia and found excellent agreement between theoretical and experimental spectra. We show that fitting the anharmonic corrections requires a smaller training set as compared to fitting total electronic energies. We also demonstrate that our approach allows to reduce the dimensionality of the nuclear space used to scan the PES when constructing the training set. Thus, only the degrees of freedom associated with large amplitude motions need to be treated with $\Delta$-machine learning, which paves a way for reliable simulations of vibronic spectra of large floppy molecules.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# 生成AIの時代における合成画像の検証:何が機能し、まだ存在しないのか

Synthetic Image Verification in the Era of Generative AI: What Works and What Isn't There Yet ( http://arxiv.org/abs/2405.00196v1 )

ライセンス: Link先を確認
Diangarti Tariang, Riccardo Corvi, Davide Cozzolino, Giovanni Poggi, Koki Nagano, Luisa Verdoliva, (参考訳) 本稿では,合成画像の検出と帰属に関するアプローチの概要と,その強度と弱点を明らかにする。 また、この分野でのホットトピックを指摘し、議論し、今後の研究に向けた有望な方向性を概説する。

In this work we present an overview of approaches for the detection and attribution of synthetic images and highlight their strengths and weaknesses. We also point out and discuss hot topics in this field and outline promising directions for future research.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# Grounding Realizable Entities

Grounding Realizable Entities ( http://arxiv.org/abs/2405.00197v1 )

ライセンス: Link先を確認
Michael Rabenberg, Carter Benson, Federico Donato, Yongqun He, Anthony Huffman, Shane Babcock, John Beverley, (参考訳) 過去10年間、質、配置、役割のオントロジー的表現が洗練され、生命科学研究における微妙な区別が明確化されてきた。 基本形式オントロジー (BFO) の文脈において, それらの実体の広く用いられている特徴を定式化した上で, この治療におけるギャップを特定し, BFO の特徴を補う必要性を動機づける。 本研究では, 宿主-病原体相互作用の微妙な側面を表現して, 品質と配置, 配置と役割の接地関係を規定する定義を提案する。

Ontological representations of qualities, dispositions, and roles have been refined over the past decade, clarifying subtle distinctions in life science research. After articulating a widely-used characterization of these entities within the context of Basic Formal Ontology (BFO), we identify gaps in this treatment and motivate the need for supplementing the BFO characterization. By way of supplement, we propose definitions for grounding relations holding between qualities and dispositions, and dispositions and roles, illustrating our proposal by representing subtle aspects of host-pathogen interactions.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# ロングコンテキストモデルを用いたインコンテキスト学習:インディース探索

In-Context Learning with Long-Context Models: An In-Depth Exploration ( http://arxiv.org/abs/2405.00200v1 )

ライセンス: Link先を確認
Amanda Bertsch, Maor Ivgi, Uri Alon, Jonathan Berant, Matthew R. Gormley, Graham Neubig, (参考訳) モデルコンテキストの長さが増加し続けるにつれて、コンテキスト内で提供可能なデモの数は、トレーニングデータセット全体のサイズに近づきます。 本研究は,複数のデータセットやモデルを用いて,テキスト内学習(ICL)の挙動を極端に評価する。 大規模なラベル空間を持つ多くのデータセットでは、数百から数千のデモでパフォーマンスが向上し続けています。 サンプル検索は、低文脈長で優れた性能を示すが、より多くの実演によって利得が低下している; 微調整はICLよりも飢えているデータであるが、追加データで長いコンテキストICLのパフォーマンスを超えることがある。 In-context Learning と long-context model の両方の特性を研究するために,この ICL 設定をテストベッドとして使用する。 長文のICLは、短文のICLよりもランダムな入力シャッフルに敏感で、同じラベルのサンプルをグループ化すると性能に悪影響を及ぼし、また、多数のサンプルを同時に符号化することで、累積的なゲインが生じることはないことを示す。 我々は、長いコンテキストのICLは驚くほど効果的であるが、ほとんどの利益はタスク学習ではなく、同様の例にたどり着くことにあると結論付けている。

As model context lengths continue to increase, the number of demonstrations that can be provided in-context approaches the size of entire training datasets. We study the behavior of in-context learning (ICL) at this extreme scale on multiple datasets and models. We show that, for many datasets with large label spaces, performance continues to increase with hundreds or thousands of demonstrations. We contrast this with example retrieval and finetuning: example retrieval shows excellent performance at low context lengths but has diminished gains with more demonstrations; finetuning is more data hungry than ICL but can sometimes exceed long-context ICL performance with additional data. We use this ICL setting as a testbed to study several properties of both in-context learning and long-context models. We show that long-context ICL is less sensitive to random input shuffling than short-context ICL, that grouping of same-label examples can negatively impact performance, and that the performance boosts we see do not arise from cumulative gain from encoding many examples together. We conclude that although long-context ICL can be surprisingly effective, most of this gain comes from attending back to similar examples rather than task learning.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# SPAFIT: 事前訓練された大規模言語モデルのための階層化プログレッシブ適応微調整

SPAFIT: Stratified Progressive Adaptation Fine-tuning for Pre-trained Large Language Models ( http://arxiv.org/abs/2405.00201v1 )

ライセンス: Link先を確認
Samir Arora, Liangliang Wang, (参考訳) フル微調整は、Transformerベースのトレーニング済みの大規模言語モデルを特定の下流タスクに適応するための一般的なアプローチである。 しかし、計算能力とストレージのかなりの要件は、その広く使われることを妨げている。 さらに、トランスフォーマーアーキテクチャにおける破滅的な忘れ込みと過度パラメータ化の証拠の増加は、より効率的な微細チューニング(PEFT)手法を求める研究者を動機付けている。 通常、LoRAやBitFitのようなパラメータ効率のよい微調整方法は、モデルのすべての層に適用される。 本研究では,異なるタイプの言語知識をモデルの特定の層に局在させることに基づいて,SPAFIT(Stratified Progressive Adaptation Fine-tuning)と呼ばれるPEFT手法を提案する。 GLUEベンチマークの9つのタスクを用いて実験を行った結果,提案手法は他のPEFT法よりも優れた性能を示し,他の手法によって調整されたパラメータのごく一部のみを微調整した。

Full fine-tuning is a popular approach to adapt Transformer-based pre-trained large language models to a specific downstream task. However, the substantial requirements for computational power and storage have discouraged its widespread use. Moreover, increasing evidence of catastrophic forgetting and overparameterization in the Transformer architecture has motivated researchers to seek more efficient fine-tuning (PEFT) methods. Commonly known parameter-efficient fine-tuning methods like LoRA and BitFit are typically applied across all layers of the model. We propose a PEFT method, called Stratified Progressive Adaptation Fine-tuning (SPAFIT), based on the localization of different types of linguistic knowledge to specific layers of the model. Our experiments, conducted on nine tasks from the GLUE benchmark, show that our proposed SPAFIT method outperforms other PEFT methods while fine-tuning only a fraction of the parameters adjusted by other methods.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# 分子設計のための深部生成モデルにおけるエピステミックモデル不確かさを捉えるための活性部分空間の活用

Leveraging Active Subspaces to Capture Epistemic Model Uncertainty in Deep Generative Models for Molecular Design ( http://arxiv.org/abs/2405.00202v1 )

ライセンス: Link先を確認
A N M Nafiz Abeer, Sanket Jantre, Nathan M Urban, Byung-Jun Yoon, (参考訳) 深層生成モデルは、材料および薬物設計における逆設計プロセスの加速を図っている。 典型的な分子設計フレームワークにおけるそれらの特性予測と異なり、生成分子設計モデルでは、ベイズ推定における多くのパラメータによる計算上の問題により、不確実性定量化(UQ)への取り組みが減っている。 本研究では、生成分子設計の一般的なモデルであるジャンクションツリー変分オートエンコーダ(JT-VAE)に着目し、低次元の活性部分空間を利用してモデルパラメータの不確かさを捉えることでこの問題に対処する。 具体的には,非常に高次元のパラメータ空間におけるエピステミックモデルの不確かさを推定するために,活性部分空間パラメータの後方分布を近似する。 提案したUQスキームはモデルアーキテクチャの変更を必要としないため、事前訓練されたモデルにも容易に適用できる。 本実験は,ASをベースとしたUQの有効性と,その分子最適化に対する潜在的影響を,疫学的な不確実性の下でモデル多様性を探索することによって実証した。

Deep generative models have been accelerating the inverse design process in material and drug design. Unlike their counterpart property predictors in typical molecular design frameworks, generative molecular design models have seen fewer efforts on uncertainty quantification (UQ) due to computational challenges in Bayesian inference posed by their large number of parameters. In this work, we focus on the junction-tree variational autoencoder (JT-VAE), a popular model for generative molecular design, and address this issue by leveraging the low dimensional active subspace to capture the uncertainty in the model parameters. Specifically, we approximate the posterior distribution over the active subspace parameters to estimate the epistemic model uncertainty in an extremely high dimensional parameter space. The proposed UQ scheme does not require alteration of the model architecture, making it readily applicable to any pre-trained model. Our experiments demonstrate the efficacy of the AS-based UQ and its potential impact on molecular optimization by exploring the model diversity under epistemic uncertainty.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# 思考プロンプトの連鎖の汎用的検証

General Purpose Verification for Chain of Thought Prompting ( http://arxiv.org/abs/2405.00204v1 )

ライセンス: Link先を確認
Robert Vacareanu, Anurag Pratik, Evangelia Spiliopoulou, Zheng Qi, Giovanni Paolini, Neha Anna John, Jie Ma, Yassine Benajiba, Miguel Ballesteros, (参考訳) LLM(Large Language Models)によって実証された最近の機能の多くは、主にコンテキスト情報を利用する能力に由来する。 本稿では,(1)思考の連鎖の探索,(2)推論過程の個々のステップの検証を通じて,LLMの推論能力を改善する方法について検討する。 我々は、モデルが推論しながら従うべき3つの一般的な原則を提案する。 (i)関連性 (二)数学的正確性、及び (三)論理整合性 これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。 モデル自身は、生成されたステップがそれぞれの制約を満たすかどうかを検証するように求められます。 次世代を高品質な解へと推し進めるために、推論ステップの難易度を付加検証器として利用する。 提案手法は,9つの異なるデータセットにまたがる4種類の推論タスクに対して評価を行った。 実験の結果,本手法はバニラ生成より常に優れていることが示され,9つのデータセットのうち6つでは,Nの推論連鎖をサンプリングし,最も低いパープレキシティ生成を選択するNのサンプリングよりも優れていることがわかった。

Many of the recent capabilities demonstrated by Large Language Models (LLMs) arise primarily from their ability to exploit contextual information. In this paper, we explore ways to improve reasoning capabilities of LLMs through (1) exploration of different chains of thought and (2) validation of the individual steps of the reasoning process. We propose three general principles that a model should adhere to while reasoning: (i) Relevance, (ii) Mathematical Accuracy, and (iii) Logical Consistency. We apply these constraints to the reasoning steps generated by the LLM to improve the accuracy of the final generation. The constraints are applied in the form of verifiers: the model itself is asked to verify if the generated steps satisfy each constraint. To further steer the generations towards high-quality solutions, we use the perplexity of the reasoning steps as an additional verifier. We evaluate our method on 4 distinct types of reasoning tasks, spanning a total of 9 different datasets. Experiments show that our method is always better than vanilla generation, and, in 6 out of the 9 datasets, it is better than best-of N sampling which samples N reasoning chains and picks the lowest perplexity generation.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# 集約型グラフニューラルネットワークの論理

A Logic for Reasoning About Aggregate-Combine Graph Neural Networks ( http://arxiv.org/abs/2405.00205v1 )

ライセンス: Link先を確認
Pierre Nunn, Marco Sälzer, François Schwarzentruber, Nicolas Troquard, (参考訳) 線形不等式に数える様相が現れる様相論理を提案する。 各式は等価グラフニューラルネットワーク(GNN)に変換可能であることを示す。 また,GNNの論理的表現性に関する文献により,GNNの幅広いクラスを効率よく公式に変換できることが示唆された。 また, 満足度問題はPSPACE完全であることを示す。 これらの結果は、特にGNNクエリや等価チェックなどのアプリケーションにおいて、GNNとその特性を推論するために標準的な論理的手法を使用するという約束を結び付ける。 このような自然問題は多項式空間で解けることを証明している。

We propose a modal logic in which counting modalities appear in linear inequalities. We show that each formula can be transformed into an equivalent graph neural network (GNN). We also show that a broad class of GNNs can be transformed efficiently into a formula, thus significantly improving upon the literature about the logical expressiveness of GNNs. We also show that the satisfiability problem is PSPACE-complete. These results bring together the promise of using standard logical methods for reasoning about GNNs and their properties, particularly in applications such as GNN querying, equivalence checking, etc. We prove that such natural problems can be solved in polynomial space.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# 変圧器を用いた言語モデルの内部動作に関する一考察

A Primer on the Inner Workings of Transformer-based Language Models ( http://arxiv.org/abs/2405.00208v1 )

ライセンス: Link先を確認
Javier Ferrando, Gabriele Sarti, Arianna Bisazza, Marta R. Costa-jussà, (参考訳) 先進言語モデルの内部動作の解釈を目的とした研究の急速な進歩は、この分野における長年の作業から得られた洞察を文脈的に理解する必要性を浮き彫りにした。 このプライマーは、トランスフォーマーベースの言語モデルの内部動作を解釈するために使われる現在のテクニックの簡潔な技術的紹介を提供し、生成デコーダのみアーキテクチャに焦点を当てている。 本稿では、これらのモデルによって実装された既知の内部機構の概要を概説し、一般的なアプローチとこの分野の活発な研究方向のつながりを明らかにする。

The rapid progress of research aimed at interpreting the inner workings of advanced language models has highlighted a need for contextualizing the insights gained from years of work in this area. This primer provides a concise technical introduction to the current techniques used to interpret the inner workings of Transformer-based language models, focusing on the generative decoder-only architecture. We conclude by presenting a comprehensive overview of the known internal mechanisms implemented by these models, uncovering connections across popular approaches and active research directions in this area.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# 超音速物質波

Superluminal matter waves ( http://arxiv.org/abs/2405.00209v1 )

ライセンス: Link先を確認
J. P. Palastro, D. Ramsey, M. Formanek, J. Vieira, A. Di Piazza, (参考訳) ディラック方程式は、特殊相対性理論と完全に互換性のある最初の量子力学理論として登場して以来、現代物理学の最大の成功の1つに数えられている。 この互換性により、速度の期待値は光の真空速度よりも小さいことが保証される。 ここでは、ダイラック方程式は、光の真空速度を超えるものを含め、波動関数のピーク振幅が任意の速度で移動できる自由粒子解を容認する。 解は運動量空間の相関を持つ基底関数を重畳することによって構成される。 これらの任意の速度波動関数は概定数プロファイルを特徴とし、期待値とは対照的に確率密度の局所値に敏感な量子力学的プロセスに影響を与える可能性がある。

The Dirac equation has resided among the greatest successes of modern physics since its emergence as the first quantum mechanical theory fully compatible with special relativity. This compatibility ensures that the expectation value of the velocity is less than the vacuum speed of light. Here, we show that the Dirac equation admits free-particle solutions where the peak amplitude of the wavefunction can travel at any velocity, including those exceeding the vacuum speed of light, despite having a subluminal velocity expectation value. The solutions are constructed by superposing basis functions with correlations in momentum space. These arbitrary velocity wavefunctions feature a near-constant profile and may impact quantum mechanical processes that are sensitive to the local value of the probability density as opposed to expectation values.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# fNIRSデータによるワークロード予測のためのブロック・アズ・ドメイン適応

Block-As-Domain Adaptation for Workload Prediction from fNIRS Data ( http://arxiv.org/abs/2405.00213v1 )

ライセンス: Link先を確認
Jiyang Wang, Ayse Altay, Senem Velipasalar, (参考訳) 機能近赤外分光法(FNIRS)は、皮質血行動態を測定する非侵襲的な方法である。 fNIRSデータからの認知的負荷の予測は、拡散した手法のセットで行われている。 実世界の設定に適用するには、モデルが必要であり、異なるセッションと異なる主題でうまく機能する。 しかしながら、既存のほとんどの研究は、トレーニングとテストデータは同一の被験者から来ており、または/またはそれまで見たことのない被験者間でうまく一般化できないと仮定している。 fNIRSデータによって課されるその他の課題には、オブジェクト間fNIRSデータや、セッションの異なるブロックで収集されたオブジェクト内データなどが含まれる。 これらの課題に対処するため、異なるドメインと同じセッションから異なるブロックを閲覧することで、セッション内分散を明示的に最小化する、CABA-DA(class-aware-block-aware domain adaptation)と呼ばれる効果的な手法を提案する。 クラス内ドメインの差を最小化し、クラス間ドメインの差を最大化する。 さらに,認知負荷分類のためのMLPMixerに基づくモデルを提案する。 実験の結果,提案モデルでは,認知作業負荷の3つの公開データセット上での3つのベースラインモデルと比較して,優れた性能を示した。 そのうちの2つはn-backタスクから収集され、そのうちの1つは指のタッピングから収集される。 実験の結果,提案手法はベースラインモデルの改良にも有効であることがわかった。

Functional near-infrared spectroscopy (fNIRS) is a non-intrusive way to measure cortical hemodynamic activity. Predicting cognitive workload from fNIRS data has taken on a diffuse set of methods. To be applicable in real-world settings, models are needed, which can perform well across different sessions as well as different subjects. However, most existing works assume that training and testing data come from the same subjects and/or cannot generalize well across never-before-seen subjects. Additional challenges imposed by fNIRS data include the high variations in inter-subject fNIRS data and also in intra-subject data collected across different blocks of sessions. To address these issues, we propose an effective method, referred to as the class-aware-block-aware domain adaptation (CABA-DA) which explicitly minimize intra-session variance by viewing different blocks from the same subject same session as different domains. We minimize the intra-class domain discrepancy and maximize the inter-class domain discrepancy accordingly. In addition, we propose an MLPMixer-based model for cognitive load classification. Experimental results demonstrate the proposed model has better performance compared with three different baseline models on three public-available datasets of cognitive workload. Two of them are collected from n-back tasks and one of them is from finger tapping. From our experiments, we also show the proposed contrastive learning method can also improve baseline models we compared with.
翻訳日:2024-05-02 17:06:33 公開日:2024-04-30
# 非平衡ガウス貯水池を持つカルデイラ・レゲットモデルの量子熱力学

Quantum thermodynamics of the Caldeira-Leggett model with non-equilibrium Gaussian reservoirs ( http://arxiv.org/abs/2405.00215v1 )

ライセンス: Link先を確認
Vasco Cavina, Massimiliano Esposito, (参考訳) 我々は、量子粒子がエンジニアリングされた貯水池の集合に強く結合されるカルデイラ・レゲットモデルの非平衡バージョンを導入する。 貯留層は、平衡状態にあると仮定される標準の場合とは対照的に、圧縮された熱モードと変位した熱モードの集合によって構成される。 このモデルは、非常に多用途であることが証明されている。 強い置換/スクイーズされた貯水池は、ハミルトニアン系において効果的な時間依存を生じさせ、純粋な仕事の源として特定することができる。 スクイーズの場合、時間依存は確率的であり、ゆらぎ-散逸関係を破るが、これは最初の非平衡条件を生成するのに使用されるエネルギーを正しく考慮することで熱力学の第2法則と整合することができる。 平均的な記述を超えて全熱統計を計算するために、ケルディシュの輪郭を修正して一般化したハミルトン多様体として、スクイーズと変位を扱います。 この手法の適用例として、非平衡カルデイラ・レゲットモデルにおける熱統計と、圧縮および変位色雑音の作用による古典的ランゲヴィン粒子の統計との量子古典的対応を示す。 最後に, 熱発生関数の熱力学対称性を議論し, エネルギー収支の揺らぎ定理を証明し, 軌道レベルのエネルギーの保存が古典的極限に現れることを示す。

We introduce a non-equilibrium version of the Caldeira-Leggett model in which a quantum particle is strongly coupled to a set of engineered reservoirs. The reservoirs are composed by collections of squeezed and displaced thermal modes, in contrast to the standard case in which the modes are assumed to be at equilibrium. The model proves to be very versatile. Strongly displaced/squeezed reservoirs can be used to generate an effective time dependence in the system Hamiltonian and can be identified as sources of pure work. In the case of squeezing, the time dependence is stochastic and breaks the fluctuation-dissipation relation, this can be reconciled with the second law of thermodynamics by correctly accounting for the energy used to generate the initial non-equilibrium conditions. To go beyond the average description and compute the full heat statistics, we treat squeezing and displacement as generalized Hamiltonians on a modified Keldysh contour. As an application of this technique, we show the quantum-classical correspondence between the heat statistics in the non-equilibrium Caldeira-Leggett model and the statistics of a classical Langevin particle under the action of squeezed and displaced colored noises. Finally, we discuss thermodynamic symmetries of the heat generating function, proving a fluctuation theorem for the energy balance and showing that the conservation of energy at the trajectory level emerges in the classical limit.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# グラフィカル推論:LLMに基づくセミオープン関係抽出

Graphical Reasoning: LLM-based Semi-Open Relation Extraction ( http://arxiv.org/abs/2405.00216v1 )

ライセンス: Link先を確認
Yicheng Tao, Yiqun Wang, Longju Bai, (参考訳) 本稿では,高度な言語モデル,特にCoT(Chain of Thought)とGRE(Graphical Reasoning)技術を用いた関係抽出の包括的探索について述べる。 GPT-3.5による文脈内学習の活用が,特に詳細な例に基づく推論を通じて抽出過程を大幅に向上させることを示す。 さらに、逐次的なサブタスクへの関係抽出を識別し、複雑な関係データの処理における精度と適応性を向上する、新しいグラフィカル推論手法を導入する。 手動でアノテートしたデータを含む複数のデータセットで実施した本実験は,性能指標の大幅な改善を示し,方法論の有効性を裏付けるものである。

This paper presents a comprehensive exploration of relation extraction utilizing advanced language models, specifically Chain of Thought (CoT) and Graphical Reasoning (GRE) techniques. We demonstrate how leveraging in-context learning with GPT-3.5 can significantly enhance the extraction process, particularly through detailed example-based reasoning. Additionally, we introduce a novel graphical reasoning approach that dissects relation extraction into sequential sub-tasks, improving precision and adaptability in processing complex relational data. Our experiments, conducted on multiple datasets, including manually annotated data, show considerable improvements in performance metrics, underscoring the effectiveness of our methodologies.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# GMC-PINNs:不規則領域上の分数偏微分方程式を解くための新しい一般モンテカルロPINNs法

GMC-PINNs: A new general Monte Carlo PINNs method for solving fractional partial differential equations on irregular domains ( http://arxiv.org/abs/2405.00217v1 )

ライセンス: Link先を確認
Shupeng Wang, George Em Karniadakis, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、分数PDE(fPDES)[29]を含む、異なるタイプの偏微分方程式(PDE)を解くために広く用いられている。 本稿では不規則領域上のfPDEを解くための新しい一般(準)モンテカルロPINNを提案する。 具体的には、[31] で以前に述べたような積分のモンテカルロ近似による分数微分を近似する代わりに、より一般的なモンテカルロ近似法を用いて異なる fPDE を解く。 さらに、アンサンブル確率密度関数に基づいて、生成したノードはすべて、その微分を行う対象点の近くのより密度の高い領域に位置している。 これは、非平衡格子やネスト格子上の既知の有限差分法と予期せぬ関係を持ち、したがって、我々の手法はそれらの利点を継承する。 同時に、生成されたノードはブロックのような密度分布を示し、このアプローチの優れた計算効率をもたらす。 本稿では,このアルゴリズムを応用するためのフレームワークを提案し,いくつかの例に応用する。 本研究は,不規則領域問題に対するGCC-PINNの有効性を実証し,元のfPINN法と比較して高い計算効率を示した。 モンテカルロ fPINN [31] との比較も含んでいる。 最後に, ファジィ境界問題に対処する手法の有効性を実例で示すとともに, ヒト脳の心室領域で定義される3次元分数Bloch-Torrey方程式の解法を用いて, 古典的数値法との比較を行った。

Physics-Informed Neural Networks (PINNs) have been widely used for solving partial differential equations (PDEs) of different types, including fractional PDEs (fPDES) [29]. Herein, we propose a new general (quasi) Monte Carlo PINN for solving fPDEs on irregular domains. Specifically, instead of approximating fractional derivatives by Monte Carlo approximations of integrals as was done previously in [31], we use a more general Monte Carlo approximation method to solve different fPDEs, which is valid for fractional differentiation under any definition. Moreover, based on the ensemble probability density function, the generated nodes are all located in denser regions near the target point where we perform the differentiation. This has an unexpected connection with known finite difference methods on non-equidistant or nested grids, and hence our method inherits their advantages. At the same time, the generated nodes exhibit a block-like dense distribution, leading to a good computational efficiency of this approach. We present the framework for using this algorithm and apply it to several examples. Our results demonstrate the effectiveness of GMC-PINNs in dealing with irregular domain problems and show a higher computational efficiency compared to the original fPINN method. We also include comparisons with the Monte Carlo fPINN [31]. Finally, we use examples to demonstrate the effectiveness of the method in dealing with fuzzy boundary location problems, and then use the method to solve the coupled 3D fractional Bloch-Torrey equation defined in the ventricular domain of the human brain, and compare the results with classical numerical methods.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# セキュアコード生成のための制約付きデコード

Constrained Decoding for Secure Code Generation ( http://arxiv.org/abs/2405.00218v1 )

ライセンス: Link先を確認
Yanjun Fu, Ethan Baker, Yizheng Chen, (参考訳) Code Large Language Models (Code LLMs) は、開発者の生産性向上にますます利用されているが、脆弱性のあるコードを生成することが多い。 したがって、コードLLMが生成するコードが正確でセキュアであることを確実にする必要がある。 これまでの研究は主にセキュアなコードを生成することに焦点を当ててきた。 この監視はセキュリティの誤った感覚につながる可能性がある。 現在、コミュニティにはこの分野における実際の進捗を測定する方法がなく、コード生成のセキュリティと正確性の両方に対処するソリューションが必要です。 本稿では,Secure-pass@kとSecure@$k_{\text{pass}}$という2つの新しいメトリクスとともに,Code LLMがセキュアかつ正しいコードを生成する能力を測定するための新しいベンチマークであるCodeGuard+を紹介する。 新たな評価手法を用いて,現在最先端の防御技術であるプレフィックス・チューニングは,セキュアなコードを生成するが機能的正当性を犠牲にしているため,従来考えられていたほど強力ではない可能性が示唆された。 また,異なる復号法がコードLLMのセキュリティに著しく影響を及ぼすことを示す。 さらに、セキュアなコード生成のための制約付き復号化という、新たな防御方向についても検討する。 本稿では,セキュリティ制約と正当性制約を同時に満たすコードを生成するために,新しい制約付き復号法を提案する。 この結果から,制約付き復号化は,特別なトレーニングデータセットを必要とせずに,コードLLMのセキュリティを改善するためにプレフィックスチューニングよりも効果的であることが判明した。 さらに、制約付きデコーディングとプレフィックスチューニングを併用して、コードLLMのセキュリティをさらに改善することができる。

Code Large Language Models (Code LLMs) have been increasingly used by developers to boost productivity, but they often generate vulnerable code. Thus, there is an urgent need to ensure that code generated by Code LLMs is correct and secure. Previous research has primarily focused on generating secure code, overlooking the fact that secure code also needs to be correct. This oversight can lead to a false sense of security. Currently, the community lacks a method to measure actual progress in this area, and we need solutions that address both security and correctness of code generation. This paper introduces a new benchmark, CodeGuard+, along with two new metrics, secure-pass@k and secure@$k_{\text{pass}}$, to measure Code LLMs' ability to generate both secure and correct code. Using our new evaluation methods, we show that the state-of-the-art defense technique, prefix tuning, may not be as strong as previously believed, since it generates secure code but sacrifices functional correctness. We also demonstrate that different decoding methods significantly affect the security of Code LLMs. Furthermore, we explore a new defense direction: constrained decoding for secure code generation. We propose new constrained decoding techniques to generate code that satisfies security and correctness constraints simultaneously. Our results reveal that constrained decoding is more effective than prefix tuning to improve the security of Code LLMs, without requiring a specialized training dataset. Moreover, constrained decoding can be used together with prefix tuning to further improve the security of Code LLMs.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# BOLD fMRIと頭部運動パラメータを用いた健常成人の呼吸変動の機械学習による推定

Machine Learning-based Estimation of Respiratory Fluctuations in a Healthy Adult Population using BOLD fMRI and Head Motion Parameters ( http://arxiv.org/abs/2405.00219v1 )

ライセンス: Link先を確認
Abdoljalil Addeh, Fernando Vega, Rebecca J. Williams, G. Bruce Pike, M. Ethan MacDonald, (参考訳) モチベーション(Motivation):多くのfMRI研究では、呼吸信号が欠如しているか、品質が悪いことがしばしばある。 したがって、周辺記録装置を必要とせずに、fMRIデータから直接呼吸変動(RV)波形を抽出するツールを持つことは、非常に有益である。 Goal(s): 頭部運動パラメータが呼吸パターに関する貴重な情報を含んでいるという仮説を考察し、機械学習アルゴリズムがRV波形を推定するのに役立つ。 アプローチ:本研究では,頭部運動パラメータとBOLD信号を用いたRV波形再構成のためのCNNモデルを提案する。 結果: 本研究は, 頭部運動パラメータとBOLD信号を組み合わせることにより, RV波形推定が促進されることを示した。 影響: 本手法の適用により, fMRI研究のコストを低減し, 複雑さを低減し, 呼吸器ベローズを装着する必要がなくなるため, 参加者の負担を軽減することが期待される。

Motivation: In many fMRI studies, respiratory signals are often missing or of poor quality. Therefore, it could be highly beneficial to have a tool to extract respiratory variation (RV) waveforms directly from fMRI data without the need for peripheral recording devices. Goal(s): Investigate the hypothesis that head motion parameters contain valuable information regarding respiratory patter, which can help machine learning algorithms estimate the RV waveform. Approach: This study proposes a CNN model for reconstruction of RV waveforms using head motion parameters and BOLD signals. Results: This study showed that combining head motion parameters with BOLD signals enhances RV waveform estimation. Impact: It is expected that application of the proposed method will lower the cost of fMRI studies, reduce complexity, and decrease the burden on participants as they will not be required to wear a respiratory bellows.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# ネットワークとリモートセンシングデータを用いたコンテキスト認識型モバイルネットワーク性能予測

Context-Aware Mobile Network Performance Prediction Using Network & Remote Sensing Data ( http://arxiv.org/abs/2405.00220v1 )

ライセンス: Link先を確認
Ali Shibli, Tahar Zanouda, (参考訳) 通信ネットワークにおける複数のタスクにおいて,ネットワーク性能の正確な推定が不可欠である。 通信ネットワークは、定期的に多数の無線ノードに接続する。 各無線ノードは、関連するカバレッジエリアのエンドユーザにサービスを提供します。 通信ネットワークのネットワーク性能を予測するタスクは、複雑な時空間的相互作用を考慮し、無線ノードを配置する地理空間情報を組み込む必要がある。 過去のデータのみに頼るのではなく、衛星画像データによるネットワークの過去のパフォーマンスデータセットを拡張します。 運用ネットワークの複数の異なる領域から収集された実世界のデータを用いた包括的な実験は、モデルが堅牢であり、異なるシナリオをまたいで一般化可能であることを示す。 その結果, 衛星画像を用いたモデルでは, 試験領域をまたいだ性能が良好であることが示唆された。 さらに、このモデルはコールドスタート問題に対する堅牢なアプローチを示し、新しくデプロイされたサイトでの最初のパフォーマンス推定に有望な代替手段を提供する。

Accurate estimation of Network Performance is crucial for several tasks in telecom networks. Telecom networks regularly serve a vast number of radio nodes. Each radio node provides services to end-users in the associated coverage areas. The task of predicting Network Performance for telecom networks necessitates considering complex spatio-temporal interactions and incorporating geospatial information where the radio nodes are deployed. Instead of relying on historical data alone, our approach augments network historical performance datasets with satellite imagery data. Our comprehensive experiments, using real-world data collected from multiple different regions of an operational network, show that the model is robust and can generalize across different scenarios. The results indicate that the model, utilizing satellite imagery, performs very well across the tested regions. Additionally, the model demonstrates a robust approach to the cold-start problem, offering a promising alternative for initial performance estimation in newly deployed sites.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# 量子ネットワークにおける絡み合いグラフ状態の最適分布

Optimized Distribution of Entanglement Graph States in Quantum Networks ( http://arxiv.org/abs/2405.00222v1 )

ライセンス: Link先を確認
Xiaojie Fan, Caitao Zhan, Himanshu Gupta, C. R. Ramakrishnan, (参考訳) 量子優位性を示すために不可欠な大規模量子コンピュータの構築は、重要な課題である。 量子ネットワーク(QN)は、より小さな量子コンピュータを接続することで、大規模で堅牢で、より有能な量子コンピューティングプラットフォームの構築を可能にすることで、この問題に対処するのに役立つ。 さらに、従来のシステムとは異なり、QNは完全な長距離通信を可能にする。 したがって、量子ネットワークは将来の量子情報技術の成功の中心にある。 量子ネットワークでは、ネットワーク上に分散されたマルチパーティの絡み合った状態は、通信、センシング、コンピューティングのための多くの量子ネットワークアプリケーションの実装とサポートに役立ちます。 本研究は,複数部品の絡み合い状態を効率的に生成・分散するための最適手法の開発に焦点をあてる。 これまでは、ネットワークノードとリンクの不均一性を無視しつつ、基礎となるプロセスの確率的性質を無視しながら、最大絡み合うペア(EP)の数を最小化する目的に重点を置いてきた。 本研究では,グラフ状態,ネットワークリソース,デコヒーレンス,フィデリティ制約で表される汎用多部絡み合いに対して,基礎となるプロセスの確率性を考慮して最適な(一定の仮定の下で)生成スキームを提供するハイパーグラフベースの線形プログラミングフレームワークを開発する。 本稿では,経路グラフ状態と木グラフ状態の特殊な場合に対する生成スキームを開発し,グラフ状態のより一般的なクラスに対する最適化された生成スキームについて議論する。 量子ネットワークシミュレータ(NetSquid)上での広範囲なシミュレーションを用いて、開発した手法の有効性を実証し、既知のスキームを桁違いに上回っていることを示す。

Building large-scale quantum computers, essential to demonstrating quantum advantage, is a key challenge. Quantum Networks (QNs) can help address this challenge by enabling the construction of large, robust, and more capable quantum computing platforms by connecting smaller quantum computers. Moreover, unlike classical systems, QNs can enable fully secured long-distance communication. Thus, quantum networks lie at the heart of the success of future quantum information technologies. In quantum networks, multipartite entangled states distributed over the network help implement and support many quantum network applications for communications, sensing, and computing. Our work focuses on developing optimal techniques to generate and distribute multipartite entanglement states efficiently. Prior works on generating general multipartite entanglement states have focused on the objective of minimizing the number of maximally entangled pairs (EPs) while ignoring the heterogeneity of the network nodes and links as well as the stochastic nature of underlying processes. In this work, we develop a hypergraph based linear programming framework that delivers optimal (under certain assumptions) generation schemes for general multipartite entanglement represented by graph states, under the network resources, decoherence, and fidelity constraints, while considering the stochasticity of the underlying processes. We illustrate our technique by developing generation schemes for the special cases of path and tree graph states, and discuss optimized generation schemes for more general classes of graph states. Using extensive simulations over a quantum network simulator (NetSquid), we demonstrate the effectiveness of our developed techniques and show that they outperform prior known schemes by up to orders of magnitude.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# ハシア・ナ・エティカ・エティカ・デ・ラ・インテリジェンシア人工臓器 : アン・マルコ多次元

Hacia una implementación ética e inclusiva de la Inteligencia Artificial en las organizaciones: un marco multidimensional ( http://arxiv.org/abs/2405.00225v1 )

ライセンス: Link先を確認
Ernesto Giralt Hernández, (参考訳) 本稿は、現代社会における人工知能(AI)の影響と、組織内におけるその発展と実践に倫理的アプローチを採用することの重要性について分析する。 フランスの哲学者であるエリック・サディン(英語版)らは、人間の自律性を損なうような技術化の危険性を警告している。 しかし、この記事はまた、政府や学術、市民社会といった様々な俳優が、人間や社会的価値観に沿ったAIの発展を形作る上で、積極的な役割を担っていることも認識している。 倫理と規制、革新、教育を組み合わせた多次元的アプローチが提案されている。 これは、詳細な倫理的枠組みを開発することの重要性を強調し、専門家の訓練に倫理を取り入れ、倫理的影響監査を実施し、AI設計へのステークホルダーの参加を促している。 さらに、組織におけるAIの倫理的実践のための4つの基本的柱が提示される。 1)総合値。 2)信頼と透明性。 3)人間の成長を強力にすること、そして 4) 戦略的要因の特定。 これらの柱は、企業の倫理的アイデンティティ、ガバナンスと説明責任、人間中心のデザイン、継続的なトレーニングと市場の変化に直面した適応性といった側面をカバーしている。 倫理はAIを取り入れようとする組織の戦略の基盤でなければならないと強調し、テクノロジーが人間の価値を尊重し、促進する方法で開発され、使用されることを保証するための堅固な枠組みを確立した。

The article analyzes the impact of artificial intelligence (AI) on contemporary society and the importance of adopting an ethical approach to its development and implementation within organizations. It examines the critical perspective of French philosopher \'Eric Sadin and others, who warn of the risks of unbridled technologization that can erode human autonomy. However, the article also recognizes the active role that various actors, such as governments, academics and civil society, can play in shaping the development of AI aligned with human and social values. A multidimensional approach is proposed that combines ethics with regulation, innovation and education. It highlights the importance of developing detailed ethical frameworks, incorporating ethics in the training of professionals, conducting ethical impact audits, and encouraging stakeholder participation in AI design. In addition, four fundamental pillars for the ethical implementation of AI in organizations are presented: 1) Integrated values, 2) Trust and transparency, 3) Empowering human growth, and 4) Identifying strategic factors. These pillars cover aspects such as alignment with the company's ethical identity, governance and accountability, human-centered design, continuous training and adaptability in the face of technological and market changes. It concludes by emphasizing that ethics must be the cornerstone of the strategy of any organization that aspires to incorporate AI, establishing a solid framework to ensure that the technology is developed and used in a way that respects and promotes human values.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# ブラウンID拡散による潜在空間探索による合成顔データ生成

Synthetic Face Datasets Generation via Latent Space Exploration from Brownian Identity Diffusion ( http://arxiv.org/abs/2405.00228v1 )

ライセンス: Link先を確認
David Geissbühler, Hatef Otroshi Shahreza, Sébastien Marcel, (参考訳) 顔認識(FR)モデルは、プライバシと倫理的懸念のある大規模データセットでトレーニングされている。 近年,FRモデルのトレーニングのために,合成データを用いて真のデータを補完あるいは置き換えることが提案されている。 有望な結果が得られたが、生成モデルがそのようなタスクに十分な量のデータを得られるかどうかはまだ不明である。 本研究では,確率的ブラウン力を受ける軟質粒子の物理運動に着想を得た新しい手法を提案する。 これを用いて、複数の顔データセットを生成し、FRモデルをトレーニングすることでそれらをベンチマークし、我々の方法で生成されたデータは、以前のGANベースのデータセットのパフォーマンスを超え、最先端の拡散に基づく合成データセットとの競合性能を達成することを示す。 また, この手法は, ジェネレータのトレーニングセットからの漏洩を軽減し, 生成モデルが生成するデータ生成能力を探索するためにも有効であることを示す。

Face Recognition (FR) models are trained on large-scale datasets, which have privacy and ethical concerns. Lately, the use of synthetic data to complement or replace genuine data for the training of FR models has been proposed. While promising results have been obtained, it still remains unclear if generative models can yield diverse enough data for such tasks. In this work, we introduce a new method, inspired by the physical motion of soft particles subjected to stochastic Brownian forces, allowing us to sample identities distributions in a latent space under various constraints. With this in hands, we generate several face datasets and benchmark them by training FR models, showing that data generated with our method exceeds the performance of previously GAN-based datasets and achieves competitive performance with state-of-the-art diffusion-based synthetic datasets. We also show that this method can be used to mitigate leakage from the generator's training set and explore the ability of generative models to generate data beyond it.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# Aptly: モバイルアプリを自然言語から作る

Aptly: Making Mobile Apps from Natural Language ( http://arxiv.org/abs/2405.00229v1 )

ライセンス: Link先を確認
Evan W. Patton, David Y. J. Kim, Ashley Granquist, Robin Liu, Arianna Scott, Jennet Zamanova, Harold Abelson, (参考訳) 我々は、コード生成大型言語モデル(LLM)を利用した自然言語によるモバイルアプリ開発を可能にする、MIT App Inventorプラットフォームの拡張機能であるAptlyを紹介する。 Aptlyは、App Inventorのブロック言語を、テキストベースのLLMによるビジュアルコード生成を可能にするように設計されたテキスト言語で補完する。 本稿では,Aptly サーバが LLM とリアルタイム協調機能を統合し,ユーザの指示に応じてモバイルアプリの自動作成と編集を容易にする技術的側面について詳述する。 本稿は,Aptlyの実践性とユーザエクスペリエンスを考察した,高校生を対象としたパイロット実装に関する考察から結論を得たものである。 この発見は、アプリ開発を民主化し、技術的創造性を育むツールとして、Aptlyの可能性を浮き彫りにした。

We present Aptly, an extension of the MIT App Inventor platform enabling mobile app development via natural language powered by code-generating large language models (LLMs). Aptly complements App Inventor's block language with a text language designed to allow visual code generation via text-based LLMs. We detail the technical aspects of how the Aptly server integrates LLMs with a realtime collaboration function to facilitate the automated creation and editing of mobile apps given user instructions. The paper concludes with insights from a study of a pilot implementation involving high school students, which examines Aptly's practicality and user experience. The findings underscore Aptly's potential as a tool that democratizes app development and fosters technological creativity.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# SemantiCodec:ジェネラルサウンドのための超低ビットレートセマンティックオーディオコーデック

SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound ( http://arxiv.org/abs/2405.00233v1 )

ライセンス: Link先を確認
Haohe Liu, Xuenan Xu, Yi Yuan, Mengyue Wu, Wenwu Wang, Mark D. Plumbley, (参考訳) 大規模言語モデル (LLM) は、音声コーデックによって音声を個別のトークンに変換することにより、言語モデリング技術のオーディオデータへの応用を可能にする。 しかし、従来のコーデックは高ビットレートや音声などの狭い領域内で動作し、効率的な言語モデリングに必要な意味的なヒントが欠けていることが多い。 これらの課題に対処するため,セマンティコーデック(SemantiCodec)という新しいコーデックを導入し,音質を損なうことなく,音声,一般音声,音楽など多種多様な音声タイプにまたがって,毎秒100トークン未満の音声圧縮を実現した。 SemantiCodecにはデュアルエンコーダアーキテクチャが備わっている: 自己監督型AudioMAEを使用したセマンティックエンコーダで、大規模なオーディオデータにk-meansクラスタリングして識別し、残りの詳細をキャプチャするための音響エンコーダである。 意味的および音響的エンコーダ出力は拡散モデルに基づくデコーダを介して音声を再構成するために使用される。 SemantiCodecはトークンレートが25, 50, 100/秒の3つの変種で表示され、0.31kbpsから1.43kbpsまでの超低ビットレートをサポートする。 実験結果から,SemantiCodecは再構築品質において最先端のDescriptコーデックよりも優れていた。 また,SemantiCodecは,ビットレートが著しく低い場合でも,すべての評価音声コーデックよりもはるかにリッチな意味情報を含んでいることも示唆した。 私たちのコードとデモはhttps://haoheliu.github.io/SemantiCodec/で公開されています。

Large language models (LLMs) have significantly advanced audio processing through audio codecs that convert audio into discrete tokens, enabling the application of language modelling techniques to audio data. However, traditional codecs often operate at high bitrates or within narrow domains such as speech and lack the semantic clues required for efficient language modelling. Addressing these challenges, we introduce SemantiCodec, a novel codec designed to compress audio into fewer than a hundred tokens per second across diverse audio types, including speech, general audio, and music, without compromising quality. SemantiCodec features a dual-encoder architecture: a semantic encoder using a self-supervised AudioMAE, discretized using k-means clustering on extensive audio data, and an acoustic encoder to capture the remaining details. The semantic and acoustic encoder outputs are used to reconstruct audio via a diffusion-model-based decoder. SemantiCodec is presented in three variants with token rates of 25, 50, and 100 per second, supporting a range of ultra-low bit rates between 0.31 kbps and 1.43 kbps. Experimental results demonstrate that SemantiCodec significantly outperforms the state-of-the-art Descript codec on reconstruction quality. Our results also suggest that SemantiCodec contains significantly richer semantic information than all evaluated audio codecs, even at significantly lower bitrates. Our code and demos are available at https://haoheliu.github.io/SemantiCodec/.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# STT: 自動走行のための変圧器を用いたステートフルトラッキング

STT: Stateful Tracking with Transformers for Autonomous Driving ( http://arxiv.org/abs/2405.00236v1 )

ライセンス: Link先を確認
Longlong Jing, Ruichi Yu, Xu Chen, Zhengli Zhao, Shiwei Sheng, Colin Graber, Qi Chen, Qinru Li, Shangxuan Wu, Han Deng, Sangjin Lee, Chris Sweeney, Qiurui He, Wei-Chih Hung, Tong He, Xingyi Zhou, Farshid Moussavi, Zijian Guo, Yin Zhou, Mingxing Tan, Weilong Yang, Congcong Li, (参考訳) 三次元空間における物体の追跡は、自律走行に不可欠である。 運転中の安全性を確保するため、トラッカーはフレーム全体の物体を確実に追跡し、現在の速度や加速度などの状態を正確に推定する必要がある。 既存の作業は、状態推定のモデルパフォーマンスを無視したり、状態を予測するために複雑なヒューリスティックをデプロイしたりしながら、アソシエーションタスクに頻繁にフォーカスします。 本稿では,トランスフォーマーを用いたステートフルトラッキングモデルであるSTTを提案する。 STTは、検出の長期履歴を通じて、リッチな外観、幾何学、動きの信号を消費し、データアソシエーションと状態推定の両方に共同最適化されている。 MOTAやMOTPのような標準的なトラッキングメトリクスは、オブジェクト状態の広い範囲で2つのタスクの組合せのパフォーマンスをキャプチャしないため、この制限に対処するS-MOTAとMOTPSと呼ばれる新しいメトリクスで拡張する。 STTはWaymo Open Dataset上での競合するリアルタイムパフォーマンスを実現する。

Tracking objects in three-dimensional space is critical for autonomous driving. To ensure safety while driving, the tracker must be able to reliably track objects across frames and accurately estimate their states such as velocity and acceleration in the present. Existing works frequently focus on the association task while either neglecting the model performance on state estimation or deploying complex heuristics to predict the states. In this paper, we propose STT, a Stateful Tracking model built with Transformers, that can consistently track objects in the scenes while also predicting their states accurately. STT consumes rich appearance, geometry, and motion signals through long term history of detections and is jointly optimized for both data association and state estimation tasks. Since the standard tracking metrics like MOTA and MOTP do not capture the combined performance of the two tasks in the wider spectrum of object states, we extend them with new metrics called S-MOTA and MOTPS that address this limitation. STT achieves competitive real-time performance on the Waymo Open Dataset.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# IgCONDA-PETによるPET画像の異常検出

IgCONDA-PET: Implicitly-Guided Counterfactual Diffusion for Detecting Anomalies in PET Images ( http://arxiv.org/abs/2405.00239v1 )

ライセンス: Link先を確認
Shadab Ahamed, Yixi Xu, Arman Rahmim, (参考訳) PETの異常セグメンテーションネットワークを訓練するためのピクセルレベルのアノテートデータの必要性を最小化することは、特に専門家のアノテーションに関連する時間とコストの制約のために重要である。 現在の非/弱監視型異常検出法は、トレーニングが困難であるにもかかわらず、健全なデータのみに基づいて訓練されたオートエンコーダまたは生成的敵ネットワークに依存している。 本研究は,PET画像中の異常をIgCONDA-PETと銘打って検出するための,弱教師付きかつ暗黙的に導出されたCouNterfactual diffusion Modelを提案する。 トレーニングは画像クラスラベル(健康対不健康)に条件付けされ、異常を伴う不健康な画像に対する偽物を生成する暗黙のガイダンスが提供される。 対物生成プロセスは、与えられた不健康な画像に対して健全な相手を合成し、両者の違いは異常な位置の同定を容易にする。 コードは、https://github.com/igcondapet/IgCONDA-PET.gitで入手できる。

Minimizing the need for pixel-level annotated data for training PET anomaly segmentation networks is crucial, particularly due to time and cost constraints related to expert annotations. Current un-/weakly-supervised anomaly detection methods rely on autoencoder or generative adversarial networks trained only on healthy data, although these are more challenging to train. In this work, we present a weakly supervised and Implicitly guided COuNterfactual diffusion model for Detecting Anomalies in PET images, branded as IgCONDA-PET. The training is conditioned on image class labels (healthy vs. unhealthy) along with implicit guidance to generate counterfactuals for an unhealthy image with anomalies. The counterfactual generation process synthesizes the healthy counterpart for a given unhealthy image, and the difference between the two facilitates the identification of anomaly locations. The code is available at: https://github.com/igcondapet/IgCONDA-PET.git
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# エンド・ツー・エンド運転モデルにおける誘導注意

Guiding Attention in End-to-End Driving Models ( http://arxiv.org/abs/2405.00242v1 )

ライセンス: Link先を確認
Diego Porres, Yi Xiao, Gabriel Villalonga, Alexandre Levy, Antonio M. López, (参考訳) 模倣学習によって訓練された視覚ベースのエンドツーエンドの運転モデルは、自動運転のための安価なソリューションにつながる可能性がある。 しかしながら、これらの優れたモデルをトレーニングするには、通常大量のデータを必要とするが、運転中にこれらのモデルの内部動作を明らかにするための明示的で直感的なアクティベーションマップが欠けている。 本稿では,これらのモデルの注意を誘導し,運転品質を向上し,より直感的なアクティベーションマップを得る方法について検討する。 従来の手法とは対照的に,本手法では,テスト期間中に適切なセマンティックマップを使用する必要はなく,適用対象のモデルアーキテクチャを変更する必要もない。 実データに遭遇する可能性のあるエラーにインスパイアされた,完全かつノイズの多い有意なセマンティックマップを用いて,双方の結果を奨励するテストを行う。 CIL++を代表的最先端モデルとして、CARLAシミュレータを標準ベンチマークで使用することにより、特にデータや計算資源が不足している場合に、より優れた自律運転モデルのトレーニングにおいて、我々の手法の有効性を示す実験を行う。

Vision-based end-to-end driving models trained by imitation learning can lead to affordable solutions for autonomous driving. However, training these well-performing models usually requires a huge amount of data, while still lacking explicit and intuitive activation maps to reveal the inner workings of these models while driving. In this paper, we study how to guide the attention of these models to improve their driving quality and obtain more intuitive activation maps by adding a loss term during training using salient semantic maps. In contrast to previous work, our method does not require these salient semantic maps to be available during testing time, as well as removing the need to modify the model's architecture to which it is applied. We perform tests using perfect and noisy salient semantic maps with encouraging results in both, the latter of which is inspired by possible errors encountered with real data. Using CIL++ as a representative state-of-the-art model and the CARLA simulator with its standard benchmarks, we conduct experiments that show the effectiveness of our method in training better autonomous driving models, especially when data and computational resources are scarce.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# リアルタイムHDRビデオ再構成に向けて:大規模ベンチマークデータセットと2段階アライメントネットワーク

Towards Real-World HDR Video Reconstruction: A Large-Scale Benchmark Dataset and A Two-Stage Alignment Network ( http://arxiv.org/abs/2405.00244v1 )

ライセンス: Link先を確認
Yong Shu, Liquan Shen, Xiangyu Hu, Mengyao Li, Zihao Zhou, (参考訳) 高ダイナミックレンジ(HDR)ビデオを得るための重要かつ実用的な方法として、大規模な実世界のデータセットが欠如していることから、交互に露出するシーケンスからのHDRビデオ再構成はいまだ研究されていない。 既存の手法は主に合成データセットに基づいて訓練されており、実際のシーンでは性能が良くない。 本研究では,HDRビデオ再構成のための大規模リアルタイムベンチマークデータセットであるReal-HDRVについて述べる。 具体的には、日中、夜間、屋内、屋外のシーンをカバーする約28,000のLDRフレームと4000のHDRラベルからなる500のLDRとHDRのビデオペアを含む。 我々の知る限りでは、我々のデータセットはHDRビデオ再構成データセットの中で最大のものだ。 これに対応して,HDRビデオ再構成のためのエンドツーエンドネットワークを提案する。 具体的には、第1段階は、適応的に推定されたグローバルオフセットとグローバルアライメントを行い、その後のアライメントの困難さを軽減する。 第2段階は、適応分離可能な畳み込みを用いて、特徴レベルで粗大に局所的なアライメントを暗黙的に行う。 1)データセットでトレーニングされたモデルでは,合成データセットでトレーニングされたモデルよりも実際のシーンでのパフォーマンスが向上する。 データセットはhttps://github.com/yungsyu99/Real-HDRV.comから入手可能です。

As an important and practical way to obtain high dynamic range (HDR) video, HDR video reconstruction from sequences with alternating exposures is still less explored, mainly due to the lack of large-scale real-world datasets. Existing methods are mostly trained on synthetic datasets, which perform poorly in real scenes. In this work, to facilitate the development of real-world HDR video reconstruction, we present Real-HDRV, a large-scale real-world benchmark dataset for HDR video reconstruction, featuring various scenes, diverse motion patterns, and high-quality labels. Specifically, our dataset contains 500 LDRs-HDRs video pairs, comprising about 28,000 LDR frames and 4,000 HDR labels, covering daytime, nighttime, indoor, and outdoor scenes. To our best knowledge, our dataset is the largest real-world HDR video reconstruction dataset. Correspondingly, we propose an end-to-end network for HDR video reconstruction, where a novel two-stage strategy is designed to perform alignment sequentially. Specifically, the first stage performs global alignment with the adaptively estimated global offsets, reducing the difficulty of subsequent alignment. The second stage implicitly performs local alignment in a coarse-to-fine manner at the feature level using the adaptive separable convolution. Extensive experiments demonstrate that: (1) models trained on our dataset can achieve better performance on real scenes than those trained on synthetic datasets; (2) our method outperforms previous state-of-the-art methods. Our dataset is available at https://github.com/yungsyu99/Real-HDRV.
翻訳日:2024-05-02 16:56:48 公開日:2024-04-30
# 正統な話し手は誰だ?

Who is Authentic Speaker ( http://arxiv.org/abs/2405.00248v1 )

ライセンス: Link先を確認
Qiang Huang, (参考訳) ディープラーニング技術を用いた音声変換(VC)は,高品質な1対多音声を生成できるようになった。 しかし、音声変換は、操作された音声が偽りの目的で使用される場合、潜在的に社会的な問題を引き起こす可能性がある。 また, 音源の音響特性が大きく変化しているため, 変換音声から実際の話者が誰であるかを判断することが大きな課題である。 本稿では,変換された音声から真正話者を特定することの実現可能性について検討する。 本研究は, 話者の声が異なるターゲット音声に変換された場合でも, 音源話者からの特定の情報が持続するという仮定を用いて行った。 そこで本実験では,FragmentVC を用いて音源と対象話者からランダムにペアリングした発話に対して生成した変換音声を音源話者に認識する実験を行った。 変換音声に対するロバスト性を改善するため,ディープニューラルネットワークにおける局所集約記述子(VLAD)の階層ベクトルを用いて認識モデルを構築した。 実際の話者認識システムは、変換された音声の品質の影響やVLADのバリエーションなど、主に2つの側面でテストされている。 この研究で使用されるデータセットはVCTKコーパスで、ソースとターゲットの話者をランダムにペアリングする。 変換された発話から得られた結果は、変換された音声から真の話者を認識する上で有望な性能を示す。

Voice conversion (VC) using deep learning technologies can now generate high quality one-to-many voices and thus has been used in some practical application fields, such as entertainment and healthcare. However, voice conversion can pose potential social issues when manipulated voices are employed for deceptive purposes. Moreover, it is a big challenge to find who are real speakers from the converted voices as the acoustic characteristics of source speakers are changed greatly. In this paper we attempt to explore the feasibility of identifying authentic speakers from converted voices. This study is conducted with the assumption that certain information from the source speakers persists, even when their voices undergo conversion into different target voices. Therefore our experiments are geared towards recognising the source speakers given the converted voices, which are generated by using FragmentVC on the randomly paired utterances from source and target speakers. To improve the robustness against converted voices, our recognition model is constructed by using hierarchical vector of locally aggregated descriptors (VLAD) in deep neural networks. The authentic speaker recognition system is mainly tested in two aspects, including the impact of quality of converted voices and the variations of VLAD. The dataset used in this work is VCTK corpus, where source and target speakers are randomly paired. The results obtained on the converted utterances show promising performances in recognising authentic speakers from converted voices.
翻訳日:2024-05-02 16:47:02 公開日:2024-04-30
# SemVecNet: 任意センサ構成のための一般化可能なベクトルマップ生成

SemVecNet: Generalizable Vector Map Generation for Arbitrary Sensor Configurations ( http://arxiv.org/abs/2405.00250v1 )

ライセンス: Link先を確認
Narayanan Elavathur Ranganatha, Hengyuan Zhang, Shashank Venkatramani, Jing-Yan Liao, Henrik I. Christensen, (参考訳) ベクトルマップは、ローカライゼーションや計画といったタスクの自律運転には不可欠だが、その作成とメンテナンスには特にコストがかかる。 自動運転車のオンラインベクターマップ生成の最近の進歩は有望だが、現在のモデルは異なるセンサー構成への適応性に欠けている。 特定のセンサーのポーズに過度に適合する傾向があり、性能が低下し、トレーニングコストが上昇する。 この制限は、現実世界のアプリケーションでの使用を妨げている。 この課題に対応するために,センサ構成への一般化を改良したベクトルマップ生成のためのモジュールパイプラインを提案する。 パイプラインは確率論的セマンティックマッピングを利用して、中間表現として鳥の目視(BEV)セマンティックマップを生成する。 この中間表現は、MapTRv2デコーダを使用してベクトルマップに変換される。 センサ構成に頑健なBEVセマンティックマップを採用することにより,提案手法は一般化性能を大幅に改善する。 トレーニング中に使用しないセンサ構成のデータセット上でモデルを評価した。 評価セットには、より大きな公開データセットと、プラットフォーム上で収集された小規模なプライベートデータが含まれています。 我々のモデルは最先端の手法よりもはるかに良く一般化する。

Vector maps are essential in autonomous driving for tasks like localization and planning, yet their creation and maintenance are notably costly. While recent advances in online vector map generation for autonomous vehicles are promising, current models lack adaptability to different sensor configurations. They tend to overfit to specific sensor poses, leading to decreased performance and higher retraining costs. This limitation hampers their practical use in real-world applications. In response to this challenge, we propose a modular pipeline for vector map generation with improved generalization to sensor configurations. The pipeline leverages probabilistic semantic mapping to generate a bird's-eye-view (BEV) semantic map as an intermediate representation. This intermediate representation is then converted to a vector map using the MapTRv2 decoder. By adopting a BEV semantic map robust to different sensor configurations, our proposed approach significantly improves the generalization performance. We evaluate the model on datasets with sensor configurations not used during training. Our evaluation sets includes larger public datasets, and smaller scale private data collected on our platform. Our model generalizes significantly better than the state-of-the-art methods.
翻訳日:2024-05-02 16:47:02 公開日:2024-04-30
# 条件付き拡散モデルによる連続的連続的映像塗装

Semantically Consistent Video Inpainting with Conditional Diffusion Models ( http://arxiv.org/abs/2405.00251v1 )

ライセンス: Link先を確認
Dylan Green, William Harvey, Saeid Naderiparizi, Matthew Niedoba, Yunpeng Liu, Xiaoxuan Liang, Jonathan Lavington, Ke Zhang, Vasileios Lioutas, Setareh Dabiri, Adam Scibior, Berend Zwartsenberg, Frank Wood, (参考訳) ビデオインペイントの最先端の手法は、一般的に、フレーム間で視覚情報を伝播することにより、光の流れや、マスキング領域への注意に基づくアプローチに依存している。 このようなアプローチは標準的なベンチマークにおいて大きな進歩をもたらしたが、他のフレームに存在しない新しいコンテンツの合成を必要とするタスクに苦戦している。 本稿では,条件付きビデオ拡散モデルを用いて,条件付き生成モデリング問題としての映像インパインティングを再構成し,そのような問題を解くためのフレームワークを提案する。 提案手法は, 空間的, 時間的, セマンティックに整合した新しいコンテンツを多種多様かつ高品質に表現し, 合成することができることを示す。

Current state-of-the-art methods for video inpainting typically rely on optical flow or attention-based approaches to inpaint masked regions by propagating visual information across frames. While such approaches have led to significant progress on standard benchmarks, they struggle with tasks that require the synthesis of novel content that is not present in other frames. In this paper we reframe video inpainting as a conditional generative modeling problem and present a framework for solving such problems with conditional video diffusion models. We highlight the advantages of using a generative approach for this task, showing that our method is capable of generating diverse, high-quality inpaintings and synthesizing new content that is spatially, temporally, and semantically consistent with the provided context.
翻訳日:2024-05-02 16:47:02 公開日:2024-04-30
# ニュートンのグラディエントDescentを用いたニューラルネットワーク学習の高速化のためのハイブリッド量子古典的スケジューリング

Hybrid Quantum-Classical Scheduling for Accelerating Neural Network Training with Newton's Gradient Descent ( http://arxiv.org/abs/2405.00252v1 )

ライセンス: Link先を確認
Pingzhi Li, Junyu Liu, Hanrui Wang, Tianlong Chen, (参考訳) ディープラーニングにおける最適化手法は、主にSGDのような一階勾配法によって導かれる。 しかし、ニューラルネットワークトレーニングは、二階最適化の高速収束特性から大きな恩恵を受けることができる。 ニュートンの GD はこの圏において、逆 Hessian を用いて勾配を再スケーリングすることによって際立っている。 それにもかかわらず、主要なボトルネックの1つは行列の逆転であり、特にスケーラビリティの弱い$O(N^3)$時間に時間を要する。 行列反転は一連の線形方程式に変換できる。 量子重ね合わせと絡み合いの原理を利用する量子線形解法アルゴリズム(QLSA)が$\text{polylog}(N)$時間枠内で動作できることを考えると、指数加速度を伴う有望なアプローチを示す。 具体的には、最近のQLSAの1つは、以下の値に依存する$O(d\cdot\kappa \log(N\cdot\kappa/\epsilon)$の複雑さのスケーリングを示している。 しかし、これはまた、その潜在的な指数的優位性が特定の性質(例えば$\kappa$と$d$)によって妨げられる可能性も示唆している。 本稿では,ニュートンのGDを用いたニューラルネットワークトレーニングの高速化を目的とした,ハイブリッド量子古典スケジューラQ-Newtonを提案する。 Q-Newtonは量子リニアソルバと古典リニアソルバを協調する合理化スケジューリングモジュールを使用し、$\kappa$を推定および削減し、量子ソルバに対して$d$を構築する。 評価の結果,Q-Newtonは,SGDなどの一般的な最適化手法と比較して,トレーニング時間を大幅に短縮できる可能性が示された。 我々は、量子機械のゲート時間が減少する将来のシナリオを仮説を立てる。 我々の評価は、量子コンピューティングの進化の野心的で有望な目標を定めている。

Optimization techniques in deep learning are predominantly led by first-order gradient methodologies, such as SGD. However, neural network training can greatly benefit from the rapid convergence characteristics of second-order optimization. Newton's GD stands out in this category, by rescaling the gradient using the inverse Hessian. Nevertheless, one of its major bottlenecks is matrix inversion, which is notably time-consuming in $O(N^3)$ time with weak scalability. Matrix inversion can be translated into solving a series of linear equations. Given that quantum linear solver algorithms (QLSAs), leveraging the principles of quantum superposition and entanglement, can operate within a $\text{polylog}(N)$ time frame, they present a promising approach with exponential acceleration. Specifically, one of the most recent QLSAs demonstrates a complexity scaling of $O(d\cdot\kappa \log(N\cdot\kappa/\epsilon))$, depending on: {size~$N$, condition number~$\kappa$, error tolerance~$\epsilon$, quantum oracle sparsity~$d$} of the matrix. However, this also implies that their potential exponential advantage may be hindered by certain properties (i.e. $\kappa$ and $d$). We propose Q-Newton, a hybrid quantum-classical scheduler for accelerating neural network training with Newton's GD. Q-Newton utilizes a streamlined scheduling module that coordinates between quantum and classical linear solvers, by estimating & reducing $\kappa$ and constructing $d$ for the quantum solver. Our evaluation showcases the potential for Q-Newton to significantly reduce the total training time compared to commonly used optimizers like SGD. We hypothesize a future scenario where the gate time of quantum machines is reduced, possibly realized by attoseconds physics. Our evaluation establishes an ambitious and promising target for the evolution of quantum computing.
翻訳日:2024-05-02 16:47:02 公開日:2024-04-30
# CodeHalu: 実行ベースの検証によるLLMのコード幻覚

CodeHalu: Code Hallucinations in LLMs Driven by Execution-based Verification ( http://arxiv.org/abs/2405.00253v1 )

ライセンス: Link先を確認
Yuchen Tian, Weixiang Yan, Qian Yang, Qian Chen, Wen Wang, Ziyang Luo, Lei Ma, (参考訳) 大規模言語モデル(LLM)はコード生成の分野で大きな進歩を遂げており、自動プログラミングと開発者の支援に前例のないサポートを提供している。 しかし、LCMは時々、もっともらしいように見えるコードを生成するが、期待されている要件を満たすことができず、正しく実行されないことがある。 符号化分野におけるこの幻覚の現象は研究されていない。 LLMにおけるコード幻覚に関するコミュニティの理解と研究を進めるために,実行検証に基づくこれらの幻覚の定義手法を提案し,コード幻覚の概念を初めて紹介する。 コード幻覚は、マッピング、命名、リソース、論理幻覚の4つの主なタイプに分類します。 コード幻覚を系統的に評価するために,コード幻覚の動的検出アルゴリズムを提案し,プログラム中のLLMの幻覚現象を積極的に検出するために699タスクから8,883個のサンプルを含むCodeHaluベンチマークを構築した。 コード生成時の幻覚の頻度と性質を評価するため,このベンチマークで16種類のLLMを検証した。 この結果から,自動生成コードの機能的正しさと安全性を確保するために,モデルやトレーニング方法の改善が急務であることが明らかとなった。 本研究は, コード幻覚の分類と定量化だけでなく, LLMに基づくコード生成研究における今後の改善への洞察を提供する。 CodeHaluベンチマークとコードはhttps://github.com/yuchen814/CodeHaluで公開されている。

Large Language Models (LLMs) have made significant advancements in the field of code generation, offering unprecedented support for automated programming and assisting developers. However, LLMs sometimes generate code that appears plausible but fails to meet the expected requirements or executes incorrectly. This phenomenon of hallucinations in the coding field has not been explored. To advance the community's understanding and research on code hallucinations in LLMs, we propose a definition method for these hallucinations based on execution verification and introduce the concept of code hallucinations for the first time. We categorize code hallucinations into four main types: mapping, naming, resource, and logic hallucinations, each further divided into different subcategories to better understand and address the unique challenges faced by LLMs during code generation. To systematically evaluate code hallucinations, we propose a dynamic detection algorithm for code hallucinations and construct the CodeHalu benchmark, which includes 8,883 samples from 699 tasks, to actively detect hallucination phenomena in LLMs during programming. We tested 16 popular LLMs on this benchmark to evaluate the frequency and nature of their hallucinations during code generation. The findings reveal significant variations in the accuracy and reliability of LLMs in generating code, highlighting the urgent need to improve models and training methods to ensure the functional correctness and safety of automatically generated code. This study not only classifies and quantifies code hallucinations but also provides insights for future improvements in LLM-based code generation research. The CodeHalu benchmark and code are publicly available at https://github.com/yuchen814/CodeHalu.
翻訳日:2024-05-02 16:47:02 公開日:2024-04-30
# パーソナライズと選好アグリゲーションによる不均一フィードバックからのRLHFの原理

Principled RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation ( http://arxiv.org/abs/2405.00254v1 )

ライセンス: Link先を確認
Chanwoo Park, Mingyang Liu, Kaiqing Zhang, Asuman Ozdaglar, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法であり、近年、微調整された大規模言語モデルで顕著な成功を収めている。 既存のRLHFパラダイムの多くは、人間の嗜好は比較的均質であり、単一の報酬モデルで符号化できるという前提を定めている。 本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。 具体的には、パーソナライズベース1とアグリゲーションベース1の2つの手法を原則として、異種人のフィードバックに対処する枠組みを提案する。 前者に対しては,表現学習とクラスタリングに基づく2つのアプローチを提案し,偏差(嗜好の不均一性による)と分散(パーソナライズによる各モデルの学習に使用するデータが少ないため)をトレードオフする複数の報酬モデルを学習する。 次に、両方のアプローチに対して、サンプルの複雑性を保証する。 後者については,人間からの多様で誠実な嗜好を注意深く集約することにより,既存のRLHFパラダイムにすでに導入されている単一モデルフレームワークの遵守を目指す。 報奨と選好のアグリゲーションに基づく2つのアプローチを提案する。前者は実用主義とレキシミンの両アプローチを用いて、個々の報酬モデルを集約し、複雑さの保証をサンプルとし、後者は確率論的意見の形で直接人間のフィードバックを集約する。 また,確率-オピニオン-フィードバックモデルの下では,不合理なフィードバックで集約された嗜好をバイアスし操作する戦略的人間ラベル作成者を扱うアプローチも開発している。 本手法は,メカニズム設計の考え方に基づいて,社会福祉機能を最大化する誘導集約規則を用いて,真に好意的な報告を確実にする。

Reinforcement learning from human feedback (RLHF) has been an effective technique for aligning AI systems with human values, with remarkable successes in fine-tuning large-language models recently. Most existing RLHF paradigms make the underlying assumption that human preferences are relatively homogeneous, and can be encoded by a single reward model. In this paper, we focus on addressing the issues due to the inherent heterogeneity in human preferences, as well as their potential strategic behavior in providing feedback. Specifically, we propose two frameworks to address heterogeneous human feedback in principled ways: personalization-based one and aggregation-based one. For the former, we propose two approaches based on representation learning and clustering, respectively, for learning multiple reward models that trades off the bias (due to preference heterogeneity) and variance (due to the use of fewer data for learning each model by personalization). We then establish sample complexity guarantees for both approaches. For the latter, we aim to adhere to the single-model framework, as already deployed in the current RLHF paradigm, by carefully aggregating diverse and truthful preferences from humans. We propose two approaches based on reward and preference aggregation, respectively: the former utilizes both utilitarianism and Leximin approaches to aggregate individual reward models, with sample complexity guarantees; the latter directly aggregates the human feedback in the form of probabilistic opinions. Under the probabilistic-opinion-feedback model, we also develop an approach to handle strategic human labelers who may bias and manipulate the aggregated preferences with untruthful feedback. Based on the ideas in mechanism design, our approach ensures truthful preference reporting, with the induced aggregation rule maximizing social welfare functions.
翻訳日:2024-05-02 16:47:02 公開日:2024-04-30
# MLQAOA: グラフ学習によるハイブリッド量子-古典的マルチレベルQAOA

MLQAOA: Graph Learning Accelerated Hybrid Quantum-Classical Multilevel QAOA ( http://arxiv.org/abs/2404.14399v3 )

ライセンス: Link先を確認
Bao Bach, Jose Falla, Ilya Safro, (参考訳) 複数のレベルの粗度で問題構造を学習し、分解に基づくハイブリッド量子古典的組合せ最適化器を知らせることは、変分アプローチのスケールアップに有望なアプローチである。 スペクトルグラフ表現学習型加速器で強化されたマルチレベルアルゴリズムを導入し、大規模グラフの最大カットインスタンスに対処し、量子近似最適化アルゴリズム(QAOA)とQAOAにインスパイアされたアルゴリズムの複数バージョンを融合する。 グラフ表現学習モデルは,QAOA変動パラメータ濃度の考え方を利用して,QAOAの性能を大幅に向上させる。 より高速な時間で高品質なソリューションを実現することにより,多段階のQAOAと,非常に大きなグラフに対する表現学習に基づくアプローチの可能性を実証する。 再現性:私たちのソースコードと結果はhttps://github.com/bachbao/MLQAOAで公開されています。

Learning the problem structure at multiple levels of coarseness to inform the decomposition-based hybrid quantum-classical combinatorial optimization solvers is a promising approach to scaling up variational approaches. We introduce a multilevel algorithm reinforced with the spectral graph representation learning-based accelerator to tackle large-scale graph maximum cut instances and fused with several versions of the quantum approximate optimization algorithm (QAOA) and QAOA-inspired algorithms. The graph representation learning model utilizes the idea of QAOA variational parameters concentration and substantially improves the performance of QAOA. We demonstrate the potential of using multilevel QAOA and representation learning-based approaches on very large graphs by achieving high-quality solutions in a much faster time. Reproducibility: Our source code and results are available at https://github.com/bachbao/MLQAOA
翻訳日:2024-05-02 11:09:15 公開日:2024-04-30
# 文書画像における文書レイアウト解析のためのハイブリッド手法

A Hybrid Approach for Document Layout Analysis in Document images ( http://arxiv.org/abs/2404.17888v2 )

ライセンス: Link先を確認
Tahira Shehzadi, Didier Stricker, Muhammad Zeshan Afzal, (参考訳) ドキュメントレイアウト分析は、ドキュメント内の要素の配置を理解することを伴う。 本稿では,テキスト,画像,表,見出しなど,文書画像中の様々な要素を理解する複雑さについて考察する。 このアプローチでは、テーブル、図形、表示要素を識別する革新的なグラフィカルなページオブジェクト検出器として、トランスフォーマーベースのオブジェクト検出ネットワークを採用している。 コントラスト学習のための高品質なオブジェクトクエリを提供するためのクエリ符号化機構を導入し、デコーダフェーズの効率を向上する。 また,デコーダの元々の1対1のマッチング戦略と,トレーニング期間中の1対1のマッチング戦略を統合するハイブリッドマッチング方式を提案する。 このアプローチは、ページ上の様々なグラフィカル要素を検出する際のモデルの精度と汎用性を改善することを目的としている。 PubLayNet、DocLayNet、PubTablesのベンチマーク実験により、我々のアプローチは最先端の手法よりも優れていることが示された。 平均精度はPubLayNetが97.3%、DocLayNetが81.6%、PubTablesが98.6である。 これらの進歩は、文書イメージを編集可能でアクセスしやすいフォーマットに変換するだけでなく、情報検索やデータ抽出プロセスの合理化にも寄与する。

Document layout analysis involves understanding the arrangement of elements within a document. This paper navigates the complexities of understanding various elements within document images, such as text, images, tables, and headings. The approach employs an advanced Transformer-based object detection network as an innovative graphical page object detector for identifying tables, figures, and displayed elements. We introduce a query encoding mechanism to provide high-quality object queries for contrastive learning, enhancing efficiency in the decoder phase. We also present a hybrid matching scheme that integrates the decoder's original one-to-one matching strategy with the one-to-many matching strategy during the training phase. This approach aims to improve the model's accuracy and versatility in detecting various graphical elements on a page. Our experiments on PubLayNet, DocLayNet, and PubTables benchmarks show that our approach outperforms current state-of-the-art methods. It achieves an average precision of 97.3% on PubLayNet, 81.6% on DocLayNet, and 98.6 on PubTables, demonstrating its superior performance in layout analysis. These advancements not only enhance the conversion of document images into editable and accessible formats but also streamline information retrieval and data extraction processes.
翻訳日:2024-05-02 11:09:15 公開日:2024-04-30
# 高調波伝達学習とモダリティアライメントを用いた効率的なリモートセンシング

Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment ( http://arxiv.org/abs/2404.18253v2 )

ライセンス: Link先を確認
Tengjun Huang, (参考訳) Visual and Language Pretraining (VLP)の台頭に伴い、多くのダウンストリームタスクが事前トレーニングのパラダイムを採用しており、さらに微調整も行われている。 このパラダイムは、様々なマルチモーダルな下流タスクにおいてポテンシャルを示してきたが、リモートセンシング領域における実装はいくつかの障害に直面している。 具体的には、同じモダリティの埋め込みを一緒にクラスタ化する傾向は、効率的な移動学習を妨げる。 この問題に対処するために,下流タスクに対するマルチモーダル・トランスファー学習の目的を統一的な視点から検討し,3つの異なる目的に基づいて最適化プロセスを再考する。 本研究では,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法であるHarMA(Harmonized Transfer Learning and Modality Alignment)を提案する。 注目すべきは、トレーニングのための外部データを必要としないHarMAは、リモートセンシングの分野で人気の高い2つのマルチモーダル検索タスクにおいて、最先端のパフォーマンスを達成することである。 実験の結果,HarMAは最小限の調整可能なパラメータしか持たない完全微調整モデルに対して,競争力や性能に優れることがわかった。 その単純さから、HarMAは既存のほとんどすべてのマルチモーダル事前学習モデルに統合できる。 本手法により,大規模モデルの幅広い下流タスクへの効率的な適用が促進され,資源消費を大幅に削減できることを期待する。 コードはhttps://github.com/seekerhuang/HarMA.comで入手できる。

With the rise of Visual and Language Pretraining (VLP), an increasing number of downstream tasks are adopting the paradigm of pretraining followed by fine-tuning. Although this paradigm has demonstrated potential in various multimodal downstream tasks, its implementation in the remote sensing domain encounters some obstacles. Specifically, the tendency for same-modality embeddings to cluster together impedes efficient transfer learning. To tackle this issue, we review the aim of multimodal transfer learning for downstream tasks from a unified perspective, and rethink the optimization process based on three distinct objectives. We propose "Harmonized Transfer Learning and Modality Alignment (HarMA)", a method that simultaneously satisfies task constraints, modality alignment, and single-modality uniform alignment, while minimizing training overhead through parameter-efficient fine-tuning. Remarkably, without the need for external data for training, HarMA achieves state-of-the-art performance in two popular multimodal retrieval tasks in the field of remote sensing. Our experiments reveal that HarMA achieves competitive and even superior performance to fully fine-tuned models with only minimal adjustable parameters. Due to its simplicity, HarMA can be integrated into almost all existing multimodal pretraining models. We hope this method can facilitate the efficient application of large models to a wide range of downstream tasks while significantly reducing the resource consumption. Code is available at https://github.com/seekerhuang/HarMA.
翻訳日:2024-05-02 11:09:15 公開日:2024-04-30
# 密度行列とランダム特徴を用いた学習

Learning with Density Matrices and Random Features ( http://arxiv.org/abs/2102.04394v5 )

ライセンス: Link先を確認
Fabio A. González, Alejandro Gallego, Santiago Toledo-Cortés, Vladimir Vargas-Calderón, (参考訳) 密度行列は、量子系の統計状態を記述する。 量子系の量子的不確実性と古典的不確実性の両方を表現し、測定、システムの組み合わせ、期待などの異なる統計操作を線形代数演算として表現することは強力な形式主義である。 本稿では,線形代数と確率を直接組み合わせた機械学習モデルの構築ブロックとして,密度行列をどのように利用できるかを検討する。 この論文の主な成果の1つは、ランダムなフーリエ特徴と組み合わされた密度行列が、$\mathbb{R}^n$ 上の任意の確率分布を近似できることを示すことである。 この発見に基づいて、本論文は密度推定、分類、回帰の異なるモデルを構築した。 これらのモデルは微分可能であり、ディープラーニングアーキテクチャのような他の異なるコンポーネントと統合することができ、勾配に基づく最適化を用いてパラメータを学習することができる。 さらに,推定とモデル平均化に基づく最適化レストレーニング戦略を提案する。 モデルはベンチマークタスクで評価され、その結果が報告され、議論される。

A density matrix describes the statistical state of a quantum system. It is a powerful formalism to represent both the quantum and classical uncertainty of quantum systems and to express different statistical operations such as measurement, system combination and expectations as linear algebra operations. This paper explores how density matrices can be used as a building block for machine learning models exploiting their ability to straightforwardly combine linear algebra and probability. One of the main results of the paper is to show that density matrices coupled with random Fourier features could approximate arbitrary probability distributions over $\mathbb{R}^n$. Based on this finding the paper builds different models for density estimation, classification and regression. These models are differentiable, so it is possible to integrate them with other differentiable components, such as deep learning architectures and to learn their parameters using gradient-based optimization. In addition, the paper presents optimization-less training strategies based on estimation and model averaging. The models are evaluated in benchmark tasks and the results are reported and discussed.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# 強化学習による数理系の近似とエクササイズ学習

Learning Approximate and Exact Numeral Systems via Reinforcement Learning ( http://arxiv.org/abs/2105.13857v2 )

ライセンス: Link先を確認
Emil Carlsson, Devdatt Dubhashi, Fredrik D. Johansson, (参考訳) 最近の研究 (Xu et al , 2020) は、異なる言語の数字系は、情報理論的な意味で効率的なコミュニケーションのための機能的な要求によって形成されていることを示唆している。 ここでは、学習理論のアプローチを採用し、強化学習によるコミュニケーションの効率性を示す。 我々のフレームワークでは、2人の人工エージェントがルイスシグナリングゲームをプレイし、そこでは数値の概念を伝えることが目標である。 エージェントは徐々に強化学習を用いてコミュニケーションを学習し、結果として得られる数字系はRegier et al (2015), Gibson et al (2017)の情報理論の枠組みにおいて効率的であることが示されている。 また、同じタイプの人間の数字体系と類似していることが示されている。 この結果から,Xu et al (2020) における最近の結果の強化学習による機械的説明が得られ,他の意味領域にも一般化できる可能性が示唆された。

Recent work (Xu et al., 2020) has suggested that numeral systems in different languages are shaped by a functional need for efficient communication in an information-theoretic sense. Here we take a learning-theoretic approach and show how efficient communication emerges via reinforcement learning. In our framework, two artificial agents play a Lewis signaling game where the goal is to convey a numeral concept. The agents gradually learn to communicate using reinforcement learning and the resulting numeral systems are shown to be efficient in the information-theoretic framework of Regier et al. (2015); Gibson et al. (2017). They are also shown to be similar to human numeral systems of same type. Our results thus provide a mechanistic explanation via reinforcement learning of the recent results in Xu et al. (2020) and can potentially be generalized to other semantic domains.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# 文埋め込みによるマルチドメインセマンティックセマンティックセグメンテーションのスケールアップ

Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings ( http://arxiv.org/abs/2202.02002v2 )

ライセンス: Link先を確認
Wei Yin, Yifan Liu, Chunhua Shen, Baichuan Sun, Anton van den Hengel, (参考訳) ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。 これにより、これらのデータセットをトレーニングすることなく、主要なセマンティックセグメンテーションデータセットのそれぞれについて、教師付きメソッドのものと同等の結果が得られる。 これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。 このアプローチの汎用性と単純さは、異なるドメインから複数のデータセットをマージすることを可能にする。 結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。 標準的なセマンティックセグメンテーションデータセットでモデルを微調整することにより、NYUD-V2とPASCAL-contextにおける最先端の教師付きセグメンテーションに対して、それぞれ60%と65% mIoUで大幅に改善する。 言語埋め込みの密接さに基づいて、我々の手法は目に見えないラベルをセグメント化できる。 広汎な実験により、画像領域や未表示ラベルへの強力な一般化が示され、深度推定やインスタンスセグメンテーションを含む下流アプリケーションの性能改善が実現された。

We propose an approach to semantic segmentation that achieves state-of-the-art supervised performance when applied in a zero-shot setting. It thus achieves results equivalent to those of the supervised methods, on each of the major semantic segmentation datasets, without training on those datasets. This is achieved by replacing each class label with a vector-valued embedding of a short paragraph that describes the class. The generality and simplicity of this approach enables merging multiple datasets from different domains, each with varying class labels and semantics. The resulting merged semantic segmentation dataset of over 2 Million images enables training a model that achieves performance equal to that of state-of-the-art supervised methods on 7 benchmark datasets, despite not using any images therefrom. By fine-tuning the model on standard semantic segmentation datasets, we also achieve a significant improvement over the state-of-the-art supervised segmentation on NYUD-V2 and PASCAL-context at 60% and 65% mIoU, respectively. Based on the closeness of language embeddings, our method can even segment unseen labels. Extensive experiments demonstrate strong generalization to unseen image domains and unseen labels, and that the method enables impressive performance improvements in downstream applications, including depth estimation and instance segmentation.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# 強決定論

Strong Determinism ( http://arxiv.org/abs/2203.02886v2 )

ライセンス: Link先を確認
Eddy Keming Chen, (参考訳) 物理学の強い決定論的理論は、宇宙の歴史を正確に1つ得ることを許す理論である。 ペンローズ(1989年)の言葉では、「それは過去によって決定される未来の問題だけではない。宇宙の歴史は、ある正確な数学的スキームによって常に固定されている」。 本稿では, 自然特性, 自由意志, 説明, モダリティなど, メタ物理や科学哲学への含意について, 簡単な方法で論じることができることを示す。 まず、強い決定論の正確な定義を提案する。 次に、哲学的な影響とおもちゃの例について論じる。 最後に、強い決定論的(かつ単純な)物理理論の現実的な例として、エベレット・ウェンタコス(Everettian Wentaculus)を挙げる。 驚くべき結果として、我々の世界が強く決定論的であるか否かは、経験的に過小評価される可能性がある。

A strongly deterministic theory of physics is one that permits exactly one possible history of the universe. In the words of Penrose (1989), ''it is not just a matter of the future being determined by the past; the entire history of the universe is fixed, according to some precise mathematical scheme, for all time.'' Such an extraordinary feature may appear unattainable in a world like ours. In this paper, I show that it can be achieved in a simple way and discuss its implications for metaphysics and philosophy of science, including natural properties, free will, explanation, and modality. First, I propose a precise definition of strong determinism. Next, I discuss its philosophical ramifications and a toy example. Finally, I provide a realistic example of a strongly deterministic (and simple) physical theory -- the Everettian Wentaculus. A surprising consequence is that whether or not our world is strongly deterministic may be empirically underdetermined.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# 可逆ジャンプと擬似後肢によるマルコフランダムフィールドのスパース相互作用近傍選択

Sparse Interaction Neighborhood Selection for Markov Random Fields via Reversible Jump and Pseudoposteriors ( http://arxiv.org/abs/2204.05933v4 )

ライセンス: Link先を確認
Victor Freguglia, Nancy Lopes Garcia, (参考訳) マルコフ確率場モデルの相互作用近傍を有限な支持と2次元格子の相対的位置に基づく一様対の相互作用で推定する問題を考察する。 ベイジアンフレームワークを用いて,最大範囲近傍の部分集合に飛び乗る可逆ジャンプモンテカルロマルコフ連鎖アルゴリズムを提案する。 提案手法の強みを示すため,シミュレーション研究を行い,離散テクスチャ画像解析から実際のデータセットに適用する。

We consider the problem of estimating the interacting neighborhood of a Markov Random Field model with finite support and homogeneous pairwise interactions based on relative positions of a two-dimensional lattice. Using a Bayesian framework, we propose a Reversible Jump Monte Carlo Markov Chain algorithm that jumps across subsets of a maximal range neighborhood, allowing us to perform model selection based on a marginal pseudoposterior distribution of models. To show the strength of our proposed methodology we perform a simulation study and apply it to a real dataset from a discrete texture image analysis.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# 翻訳不変カーネルのオルソノーマル展開

Orthonormal Expansions for Translation-Invariant Kernels ( http://arxiv.org/abs/2206.08648v4 )

ライセンス: Link先を確認
Filip Tronarp, Toni Karvonen, (参考訳) 我々は、$\mathscr{L}_2(\mathbb{R})$ の正規直交基底から翻訳不変核の正規直交基底展開を構築するための一般フーリエ解析手法を提案する。 これにより、実数直線上の明示的な展開を導出できる。 (i) 関連するラゲール関数の観点で、すべての半整数順序の Mat\'ern 核。 (ii)有理関数の観点からのコーシー核、及び (iii) エルミート函数の点でのガウス核。

We present a general Fourier analytic technique for constructing orthonormal basis expansions of translation-invariant kernels from orthonormal bases of $\mathscr{L}_2(\mathbb{R})$. This allows us to derive explicit expansions on the real line for (i) Mat\'ern kernels of all half-integer orders in terms of associated Laguerre functions, (ii) the Cauchy kernel in terms of rational functions, and (iii) the Gaussian kernel in terms of Hermite functions.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# 2007年から2022年までのオープン情報抽出に関する調査

Open Information Extraction from 2007 to 2022 -- A Survey ( http://arxiv.org/abs/2208.08690v5 )

ライセンス: Link先を確認
Pai Liu, Wenyang Gao, Wenjie Dong, Songfang Huang, Yue Zhang, (参考訳) オープン情報抽出は,テキストの関連型やドメインに制限を加えることなく,構造化されていないテキストから構造化された情報を抽出することを目的とした,重要なNLPタスクである。 本調査では,2007年から2022年までのオープンな情報抽出技術について紹介し,従来の調査対象外の新モデルに焦点を当てた。 近年のOIE技術の発展に対応するため,情報の観点からの新たな分類手法を提案する。 さらに、タスク設定に基づく3つの主要なアプローチと、現在の一般的なデータセットとモデル評価メトリクスを要約する。 総合的なレビューでは、データセット、情報ソース、出力フォーム、メソッド、評価メトリクスの各側面から、いくつかの今後の方向性が示されている。

Open information extraction is an important NLP task that targets extracting structured information from unstructured text without limitations on the relation type or the domain of the text. This survey paper covers open information extraction technologies from 2007 to 2022 with a focus on new models not covered by previous surveys. We propose a new categorization method from the source of information perspective to accommodate the development of recent OIE technologies. In addition, we summarize three major approaches based on task settings as well as current popular datasets and model evaluation metrics. Given the comprehensive review, several future directions are shown from datasets, source of information, output form, method, and evaluation metric aspects.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# 不確実性下における探索のためのリスク対応型メタレベル意思決定

Risk-aware Meta-level Decision Making for Exploration Under Uncertainty ( http://arxiv.org/abs/2209.05580v3 )

ライセンス: Link先を確認
Joshua Ott, Sung-Kyun Kim, Amanda Bouman, Oriana Peltzer, Mamoru Sobue, Harrison Delecki, Mykel J. Kochenderfer, Joel Burdick, Ali-akbar Agha-mohammadi, (参考訳) 未知環境のロボットによる探索は、センサ測定、局所化、行動実行、その他多くの要因において不確実性を考慮しなければならない不確実性の下で決定する問題である。 大規模探査アプリケーションの場合、自律システムは、障害や危険地形に関連するリスクを安全に評価しながら、環境のどの領域が探検に値するかを順次決定する課題を克服しなければならない。 本研究では,地域及びグローバルな探究に関連するトレードオフのバランスをとるために,リスク対応型メタレベル意思決定フレームワークを提案する。 メタレベルの意思決定は、局所的な政策とグローバルな政策を切り替えることによって、古典的な階層的なカバレッジプランナーの上に構築される。 我々は, 環境史, トラバーサビリティリスク, キノダイナミック制約に関する情報を用いて, 地域政策とグローバル政策の切り替えに成功している政策実行の可能性を推論する。 シミュレーションと大規模な実世界のハードウェアテストの両方で、私たちのソリューションを検証しました。 その結果,局所探査とグローバル探査のバランスをとることで,より効率的に大規模環境を探索できることが示唆された。

Robotic exploration of unknown environments is fundamentally a problem of decision making under uncertainty where the robot must account for uncertainty in sensor measurements, localization, action execution, as well as many other factors. For large-scale exploration applications, autonomous systems must overcome the challenges of sequentially deciding which areas of the environment are valuable to explore while safely evaluating the risks associated with obstacles and hazardous terrain. In this work, we propose a risk-aware meta-level decision making framework to balance the tradeoffs associated with local and global exploration. Meta-level decision making builds upon classical hierarchical coverage planners by switching between local and global policies with the overall objective of selecting the policy that is most likely to maximize reward in a stochastic environment. We use information about the environment history, traversability risk, and kinodynamic constraints to reason about the probability of successful policy execution to switch between local and global policies. We have validated our solution in both simulation and on a variety of large-scale real world hardware tests. Our results show that by balancing local and global exploration we are able to significantly explore large-scale environments more efficiently.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# MUTE-Reco:医療予後のための組立機能組立システム

MUTE-Reco: MUTual Information Assisted Ensemble Feature RECOmmender System for Healthcare Prognosis ( http://arxiv.org/abs/2209.13836v2 )

ライセンス: Link先を確認
Abhishek Dey, Debayan Goswami, Rahul Roy, Susmita Ghosh, Yu Shrike Zhang, Jonathan H. Chan, (参考訳) 目的: 健康勧告者は、患者と医療専門家が患者の健康に寄与する行動を取る際に、重要な意思決定支援システムとして機能する。 これらのシステムは、エンドユーザーに特に関連がある可能性のある情報を抽出し、適切な判断を下す手助けをする。 本研究は,医療予後の最も重要な危険因子を特定し,推奨する機能レコメンデーターを提案する。 方法:8つの特徴選択法から得られる特徴のランクを考慮した新しい相互情報とアンサンブルに基づく特徴ランク付け手法(MUTE-Reco)を提案する。 結果: 本手法の有効性を確認するため, 各種疾患(cRCC, 慢性腎疾患, インド肝患者, 頸部癌危険因子)のベンチマークデータを用いて実験を行った。 提案手法の性能を,平均精度@K,精度@K,リコール@K,F1@K,相互ランク@Kなどのレコメンデータシステムのパフォーマンス指標を用いた4つの最先端手法と比較した。 実験結果から、推奨機能で構築されたモデルは、既存の手法と比較して異なる機能セットでccRCCの異なるステージを分類するために、より高い精度(サポートベクターマシンとニューラルネットワークを使用して96.6%と98.6%)が得られることが示された。 さらに, 既存のTNMシステムから, ccRCC法, viz. 腫瘍径, 転移状況の2つの特徴を医学的に検証した。 結果は、他の3つのデータセットよりも優れていることも判明した。 結論:提案された推奨者MUTE-Recoは、病気を最も識別する能力を持つ危険因子を特定し、推奨することができる。

Purpose: Health recommenders act as important decision support systems, aiding patients and medical professionals in taking actions that lead to patients' well-being. These systems extract the information which may be of particular relevance to the end-user, helping them in making appropriate decisions. The present study proposes a feature recommender that identifies and recommends the most important risk factors for healthcare prognosis. Methods: A novel mutual information and ensemble-based feature ranking approach (termed as, MUTE-Reco) considering the rank of features obtained from eight popular feature selection methods, is proposed. Results: To establish the effectiveness of the proposed method, the experiment has been conducted on four benchmark datasets of diverse diseases (clear cell renal cell carcinoma (ccRCC), chronic kidney disease, Indian liver patient, and cervical cancer risk factors). The performance of the proposed recommender is compared with four state-of-the-art methods using recommender systems' performance metrics like average precision@K, precision@K, recall@K, F1@K, reciprocal rank@K. Experimental results show that the model built with the recommended features can attain a higher accuracy (96.6% and 98.6% using support vector machine and neural network, respectively) for classifying different stages of ccRCC with a reduced feature set as compared to existing methods. Moreover, the top two features recommended using the proposed method with ccRCC, viz. size of tumor and metastasis status, are medically validated from the existing TNM system. Results are also found to be superior for the other three datasets. Conclusion: The proposed recommender, MUTE-Reco, can identify and recommend risk factors that have the most discriminating power for detecting diseases.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# E-Valuating Classifier Two-Sample Tests

E-Valuating Classifier Two-Sample Tests ( http://arxiv.org/abs/2210.13027v2 )

ライセンス: Link先を確認
Teodora Pandeva, Tim Bakker, Christian A. Naesseth, Patrick Forré, (参考訳) 本稿では,E値に基づく高次元データに対する強力な深層分類器2サンプルテスト,E値分類器2サンプルテスト(E-C2ST)を提案する。 我々のテストは、分割可能性比検定と予測独立性検定に関する既存の研究のアイデアを組み合わせている。 得られたE値は、任意の値のシーケンシャルな2サンプルテストに適している。 この機能により、テスト統計を構築する上で、より効果的なデータの利用が可能になる。 シミュレーションや実データアプリケーションを通じて、E-C2STは、標準分類器2サンプルテストの従来の2分割(トレーニングとテスト)アプローチを超えて、データセットを複数のバッチに分割することで、拡張された統計的パワーを達成することを実証的に実証する。 この戦略は、I型エラーを所望の重要レベルよりはるかに低く保ちながら、テストのパワーを高める。

We introduce a powerful deep classifier two-sample test for high-dimensional data based on E-values, called E-value Classifier Two-Sample Test (E-C2ST). Our test combines ideas from existing work on split likelihood ratio tests and predictive independence tests. The resulting E-values are suitable for anytime-valid sequential two-sample tests. This feature allows for more effective use of data in constructing test statistics. Through simulations and real data applications, we empirically demonstrate that E-C2ST achieves enhanced statistical power by partitioning datasets into multiple batches beyond the conventional two-split (training and testing) approach of standard classifier two-sample tests. This strategy increases the power of the test while keeping the type I error well below the desired significance level.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# nnU-Netの効率よいベイズ不確かさ推定

Efficient Bayesian Uncertainty Estimation for nnU-Net ( http://arxiv.org/abs/2212.06278v2 )

ライセンス: Link先を確認
Yidong Zhao, Changchun Yang, Artur Schweidtmann, Qian Tao, (参考訳) 自己構成のnnU-Netは、幅広い医療画像セグメンテーションの課題において、主要なパフォーマンスを達成している。 選択のモデルとして広く考えられており、医用画像セグメンテーションの強力なベースラインとなっている。 しかし、その異常な性能にもかかわらず、nnU-Netはその失敗の可能性を示すための不確実性の尺度を提供していない。 これは、データが不均一であり、nnU-Netが注意を払わずに失敗する、大規模なイメージセグメンテーションアプリケーションで問題となる可能性がある。 本研究では,医療画像分割におけるnnU-Netの不確実性を推定する新しい手法を提案する。 ベイズ不確実性推定のための重み空間の後方サンプリングに有効な手法を提案する。 モンテカルロ・ドロップアウトや平均場ベイズニューラルネットワークのような従来のベースライン手法とは異なり,提案手法は変動型アーキテクチャを必要とせず,元のnnU-Netアーキテクチャをそのまま維持し,優れた性能と使いやすさを維持する。 さらに,マルチモーダル後部モデルにより,元のnnU-Netよりもセグメンテーション性能を向上する。 心臓MRIのパブリックなACDCおよびM&Mデータセットに本手法を適用し,一連のベースライン法における不確実性評価の改善を実証した。 提案手法は,領域分割精度と品質管理の両面から,医用画像分割のためのnnU-Netをさらに強化する。

The self-configuring nnU-Net has achieved leading performance in a large range of medical image segmentation challenges. It is widely considered as the model of choice and a strong baseline for medical image segmentation. However, despite its extraordinary performance, nnU-Net does not supply a measure of uncertainty to indicate its possible failure. This can be problematic for large-scale image segmentation applications, where data are heterogeneous and nnU-Net may fail without notice. In this work, we introduce a novel method to estimate nnU-Net uncertainty for medical image segmentation. We propose a highly effective scheme for posterior sampling of weight space for Bayesian uncertainty estimation. Different from previous baseline methods such as Monte Carlo Dropout and mean-field Bayesian Neural Networks, our proposed method does not require a variational architecture and keeps the original nnU-Net architecture intact, thereby preserving its excellent performance and ease of use. Additionally, we boost the segmentation performance over the original nnU-Net via marginalizing multi-modal posterior models. We applied our method on the public ACDC and M&M datasets of cardiac MRI and demonstrated improved uncertainty estimation over a range of baseline methods. The proposed method further strengthens nnU-Net for medical image segmentation in terms of both segmentation accuracy and quality control.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-30
# キャビティ強化および歪調整したGaAs量子ドットに基づく絡み合った光子の源

A source of entangled photons based on a cavity-enhanced and strain-tuned GaAs quantum dot ( http://arxiv.org/abs/2212.12506v4 )

ライセンス: Link先を確認
Michele B. Rota, Tobias M. Krieger, Quirin Buchinger, Mattia Beccaceci, Julia Neuwirth, Hêlio Huet, Nikola Horová, Gabriele Lovicu, Giuseppe Ronco, Saimon F. Covre da Silva, Giorgio Pettinari, Magdalena Moczała-Dusanowska, Christoph Kohlberger, Santanu Manna, Sandra Stroj, Julia Freund, Xueyong Yuan, Christian Schneider, Miroslav Ježek, Sven Höfling, Francesco Basso Basset, Tobias Huber-Loyola, Armando Rastelli, Rinaldo Trotta, (参考訳) 高い輝度と高いエンタングルメントを持つ光子を供給する量子光源は、効率的なエンタングルメントベースの量子キー分布システムの開発に不可欠である。 あらゆる候補の中で、エピタキシャル量子ドットは、非常に絡み合った光子の最も明るい源の1つとして現在出現している。 しかし、現在の明るさと絡み合いの最適化には、スケーラブルな組み合わせが難しい異なる技術が必要である。 本研究では、円ブラッグ共振器に埋め込まれた量子ドットからなる新しいデバイスをマイクロ加工された圧電アクチュエータに組み込むことにより、この課題を克服する。 共振器は、最大0.69(4)までの抽出効率を高めるために光物質相互作用を設計する。 同時に、アクチュエータは量子ドットを調整し、補正された忠実度を持つ絡み合った光子を最大0.96(1)までの絡み合った状態にする歪場を操作する。 このハイブリッド技術は、絡み合いに基づく量子鍵分布と絡み合いに基づく量子ネットワークのために、QDベースの絡み合ったソースを悩ませる鍵レートの限界を克服する可能性がある。

A quantum-light source that delivers photons with a high brightness and a high degree of entanglement is fundamental for the development of efficient entanglement-based quantum-key distribution systems. Among all possible candidates, epitaxial quantum dots are currently emerging as one of the brightest sources of highly entangled photons. However, the optimization of both brightness and entanglement currently requires different technologies that are difficult to combine in a scalable manner. In this work, we overcome this challenge by developing a novel device consisting of a quantum dot embedded in a circular Bragg resonator, in turn, integrated onto a micromachined piezoelectric actuator. The resonator engineers the light-matter interaction to empower extraction efficiencies up to 0.69(4). Simultaneously, the actuator manipulates strain fields that tune the quantum dot for the generation of entangled photons with corrected fidelities to a maximally entangled state up to 0.96(1). This hybrid technology has the potential to overcome the limitations of the key rates that plague QD-based entangled sources for entanglement-based quantum key distribution and entanglement-based quantum networks.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# Patch-Mixed Cross-Modality Learning による可視赤外人物再同定

Visible-Infrared Person Re-Identification via Patch-Mixed Cross-Modality Learning ( http://arxiv.org/abs/2302.08212v2 )

ライセンス: Link先を確認
Zhihao Qian, Yutian Lin, Bo Du, (参考訳) Visible-infrared person re-identification (VI-ReID) は、異なるモードから同じ歩行者の画像を取得することを目的としている。 モダリティギャップを軽減するため、近年の手法では、GAN、グレースケーリング、ミックスアップ戦略によって中間画像を生成する。 しかし、これらの手法は余分なデータ分布を導入できる可能性があり、2つのモダリティ間の意味的対応は十分に学習されていない。 本稿では、2つのモダリティから同一人物の2つのイメージをパッチに分割し、モデル学習のための新しい画像に縫合するパッチ・ミキシング・クロスモーダル・フレームワーク(PMCM)を提案する。 表現学習を正規化するために部分配向損失を導入し、モダリティの整合性を確保するためにパッチ混在のモダリティ学習損失を提案する。 このようにして、モデルは異なるスタイルのパッチを通して人物を認識することを学習し、モダリティ意味対応を推測することができる。 さらに、フレキシブルな画像生成戦略により、パッチ混合画像は異なるモダリティパッチの比率を自由に調整し、モダリティの不均衡問題を緩和することができる。 2つのVI-ReIDデータセットに対して,提案手法を用いた新しい最先端性能を報告する。

Visible-infrared person re-identification (VI-ReID) aims to retrieve images of the same pedestrian from different modalities, where the challenges lie in the significant modality discrepancy. To alleviate the modality gap, recent methods generate intermediate images by GANs, grayscaling, or mixup strategies. However, these methods could introduce extra data distribution, and the semantic correspondence between the two modalities is not well learned. In this paper, we propose a Patch-Mixed Cross-Modality framework (PMCM), where two images of the same person from two modalities are split into patches and stitched into a new one for model learning. A part-alignment loss is introduced to regularize representation learning, and a patch-mixed modality learning loss is proposed to align between the modalities. In this way, the model learns to recognize a person through patches of different styles, thereby the modality semantic correspondence can be inferred. In addition, with the flexible image generation strategy, the patch-mixed images freely adjust the ratio of different modality patches, which could further alleviate the modality imbalance problem. On two VI-ReID datasets, we report new state-of-the-art performance with the proposed method.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# 視野特異的胸部X線生成のための視覚言語生成モデル

Vision-Language Generative Model for View-Specific Chest X-ray Generation ( http://arxiv.org/abs/2302.12172v5 )

ライセンス: Link先を確認
Hyungyung Lee, Da Young Lee, Wonjae Kim, Jin-Hwa Kim, Tackeun Kim, Jihang Kim, Leonard Sunwoo, Edward Choi, (参考訳) 合成医療データ生成は、医療領域における新たな可能性を開き、臨床シナリオをシミュレートし、診断と治療の質を高め、詳細な医療知識を獲得し、偏見のないアルゴリズムの開発を加速する強力なツールを提供している。 そこで本研究では,放射線学報告のみを用いて前頭側胸部X線を生成する,一般領域パイプラインに依存した既存手法の限界を克服する,ViewXGenという新しい手法を提案する。 提案手法は,データセット内の多様な視線位置を考慮し,特定の視線を用いた胸部X線の生成を可能にした。 これを実現するために,各ビュー位置ごとに特別に設計されたトークンのセットを導入し,ユーザの好みに合わせて生成プロセスを調整した。 さらに,複数視点の胸部X線を入力として利用し,異なる視点からの貴重な情報を同じ研究に取り入れた。 この統合は潜在的なエラーを修正し、胸部X線発生の異常な発見を忠実に捉えるのに寄与する。 提案手法の有効性を検証するため,MIMIC-CXRデータセットを用いた臨床効果指標を用いて統計的解析を行い,その性能評価を行った。 また、人間の評価はビューXGenの顕著な能力を示し、特に元の画像によく似たリアルなビュー固有のX線を生成する。

Synthetic medical data generation has opened up new possibilities in the healthcare domain, offering a powerful tool for simulating clinical scenarios, enhancing diagnostic and treatment quality, gaining granular medical knowledge, and accelerating the development of unbiased algorithms. In this context, we present a novel approach called ViewXGen, designed to overcome the limitations of existing methods that rely on general domain pipelines using only radiology reports to generate frontal-view chest X-rays. Our approach takes into consideration the diverse view positions found in the dataset, enabling the generation of chest X-rays with specific views, which marks a significant advancement in the field. To achieve this, we introduce a set of specially designed tokens for each view position, tailoring the generation process to the user's preferences. Furthermore, we leverage multi-view chest X-rays as input, incorporating valuable information from different views within the same study. This integration rectifies potential errors and contributes to faithfully capturing abnormal findings in chest X-ray generation. To validate the effectiveness of our approach, we conducted statistical analyses, evaluating its performance in a clinical efficacy metric on the MIMIC-CXR dataset. Also, human evaluation demonstrates the remarkable capabilities of ViewXGen, particularly in producing realistic view-specific X-rays that closely resemble the original images.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# ドローンによるセールスマン問題に対するタイプアウェアクロモソームを用いたハイブリッド遺伝的アルゴリズム

A Hybrid Genetic Algorithm with Type-Aware Chromosomes for Traveling Salesman Problems with Drone ( http://arxiv.org/abs/2303.00614v2 )

ライセンス: Link先を確認
Sasan Mahmoudinazlou, Changhyun Kwon, (参考訳) ドローンによるトラベルセールスマン問題 (TSPD) やFSTSP (Flying Sidekick Traveling Salesman Problem) と呼ばれる新たな輸送問題があり、荷物の配達にドローンを併用する。 本研究では,局所探索と動的プログラミングを取り入れたTSPDとFSTSPのハイブリッド遺伝的アルゴリズムを提案する。 同様のアルゴリズムが文献に存在している。 しかし,本アルゴリズムは,遺伝的アルゴリズムによるより高度な染色体の探索と,動的プログラムと局所探索による効率的な利用を可能にするため,計算量が少ない動的プログラムを考慮に入れている。 本論文の重要な貢献は、TSPDとFSTSPを解くための意思決定プロセスが、遺伝的アルゴリズム、動的プログラミング、局所探索の層にどのように分割されるべきかを明らかにすることである。 特に、我々の遺伝的アルゴリズムは、トラックとドローンのシーケンスを別々に生成し、それらをタイプ認識染色体にエンコードし、それぞれの顧客がトラックまたはドローンに割り当てられる。 本研究では,各染色体に局所探索を適用し,動的プログラムで復号化して適合度評価を行う。 我々の新しいアルゴリズムは、ほとんどのベンチマークインスタンスにおいて、品質と時間の両方で既存のアルゴリズムより優れていることを示す。 アルゴリズムでは,920インスタンス中538インスタンス,132インスタンス中74インスタンス中74インスタンスに対して,新たなベストソリューションが見つかった。

There are emerging transportation problems known as the Traveling Salesman Problem with Drone (TSPD) and the Flying Sidekick Traveling Salesman Problem (FSTSP) that involve using a drone in conjunction with a truck for package delivery. This study presents a hybrid genetic algorithm for solving TSPD and FSTSP by incorporating local search and dynamic programming. Similar algorithms exist in the literature. Our algorithm, however, considers more sophisticated chromosomes and less computationally complex dynamic programming to enable broader exploration by the genetic algorithm and efficient exploitation through dynamic programming and local search. The key contribution of this paper is the discovery of how decision-making processes for solving TSPD and FSTSP should be divided among the layers of genetic algorithm, dynamic programming, and local search. In particular, our genetic algorithm generates the truck and the drone sequences separately and encodes them in a type-aware chromosome, wherein each customer is assigned to either the truck or the drone. We apply local search to each chromosome, which is decoded by dynamic programming for fitness evaluation. Our new algorithm is shown to outperform existing algorithms on most benchmark instances in both quality and time. Our algorithms found the new best solutions for 538 TSPD instances out of 920 and 74 FSTSP instances out of 132.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# リカレントニューラルネットワークを用いた力学系における長期統合のためのニューラル演算子学習

Neural Operator Learning for Long-Time Integration in Dynamical Systems with Recurrent Neural Networks ( http://arxiv.org/abs/2303.02243v3 )

ライセンス: Link先を確認
Katarzyna Michałowska, Somdatta Goswami, George Em Karniadakis, Signe Riemer-Sørensen, (参考訳) ディープニューラルネットワークは複雑な力学系をシミュレートする魅力的な代替手段であり、従来の科学計算法と比較すると、推論中に計算コストを削減し、観測データから直接訓練することができる。 しかし、既存の手法は正確には外挿できないため、長時間の統合ではエラーの蓄積が困難である。 本稿では、ニューラル演算子とリカレントニューラルネットワークを組み合わせることでこの問題に対処し、オペレータマッピングを学習し、時間的依存関係をキャプチャするリカレント構造を提供する。 統合されたフレームワークは解を安定化し、コルテヴェーグ・ド・ブリーズ方程式の補間と外挿の両方の誤差蓄積を低減する。

Deep neural networks are an attractive alternative for simulating complex dynamical systems, as in comparison to traditional scientific computing methods, they offer reduced computational costs during inference and can be trained directly from observational data. Existing methods, however, cannot extrapolate accurately and are prone to error accumulation in long-time integration. Herein, we address this issue by combining neural operators with recurrent neural networks, learning the operator mapping, while offering a recurrent structure to capture temporal dependencies. The integrated framework is shown to stabilize the solution and reduce error accumulation for both interpolation and extrapolation of the Korteweg-de Vries equation.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# 故障予測のためのディープラーニングモデルの体系的評価

Systematic Evaluation of Deep Learning Models for Failure Prediction ( http://arxiv.org/abs/2303.07230v3 )

ライセンス: Link先を確認
Fatemeh Hadadi, Joshua H. Dawes, Donghwan Shin, Domenico Bianculli, Lionel Briand, (参考訳) ソフトウェアシステムの複雑さとスコープが増大するにつれて、その信頼性は不可欠である。 システム実行中に記録されたログデータの解析により、エンジニアは実行時に自動的に障害を予測できる。 このようなタスクを自動化するために、従来のMLやディープラーニング(DL)など、機械学習(ML)技術がいくつか提案されている。 しかしながら、現在の実証研究は、すべての主要なDLタイプ(リカレントニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)、トランスフォーマー)をカバーし、幅広い多様なデータセットでそれらを調べるという観点で限定されている。 本稿では、障害予測のためのログデータ埋め込み戦略とDLタイプの組み合わせを体系的に検討し、これらの課題に対処することを目的とする。 そこで我々は,組込み戦略とDLベースのエンコーダの様々な構成に対応するモジュールアーキテクチャを提案する。 さらに,データセットサイズや故障率などのデータセット特性がモデル精度にどのように影響するかを検討するために,系統的および自動生成アプローチに基づく3つの異なるシステム行動モデルに対して,異なる特徴を持つ360データセットを合成した。 また,F1スコア測定値を用いて,Logkey2vecを用いたCNNベースのエンコーダが最適であることを示す。 さらに、データセットサイズ >350 または失敗率 >7.5% という特定のデータセット条件も提供します。

With the increasing complexity and scope of software systems, their dependability is crucial. The analysis of log data recorded during system execution can enable engineers to automatically predict failures at run time. Several Machine Learning (ML) techniques, including traditional ML and Deep Learning (DL), have been proposed to automate such tasks. However, current empirical studies are limited in terms of covering all main DL types -- Recurrent Neural Network (RNN), Convolutional Neural network (CNN), and transformer -- as well as examining them on a wide range of diverse datasets. In this paper, we aim to address these issues by systematically investigating the combination of log data embedding strategies and DL types for failure prediction. To that end, we propose a modular architecture to accommodate various configurations of embedding strategies and DL-based encoders. To further investigate how dataset characteristics such as dataset size and failure percentage affect model accuracy, we synthesised 360 datasets, with varying characteristics, for three distinct system behavioral models, based on a systematic and automated generation approach. Using the F1 score metric, our results show that the best overall performing configuration is a CNN-based encoder with Logkey2vec. Additionally, we provide specific dataset conditions, namely a dataset size >350 or a failure percentage >7.5%, under which this configuration demonstrates high accuracy for failure prediction.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# 原子蒸気中における時間-エネルギー-絡み合ったW三重項の直接生成

Direct generation of time-energy-entangled W triphotons in atomic vapor ( http://arxiv.org/abs/2303.07977v2 )

ライセンス: Link先を確認
Kangkang Li, Jianming Wen, Yin Cai, Saeid Vashahri Ghamsari, Changbiao Li, Feng Li, Zhaoyang Zhang, Yanpeng Zhang, Min Xiao, (参考訳) 絡み合った多光子の源は、量子基礎の基礎試験に必須であるだけでなく、今日の様々な光学量子技術の基盤でもある。 過去30年間に渡り、線形光学とポストセレクションで既存の双光子源を多重化することによって、多光子絡みの創出に多大な努力が注がれている。 本報告では, 従来と異なり, 連続モードの時間-エネルギー-絡み合ったW級三重項の観察を, 4段原子蒸気セルにおける自発6波混合(SSWM)のプロセスを通して直接行った前例のない生成率で行った。 電磁誘導型透明度制御とコヒーレンス制御によって実現されたSSWM方式により、長い時間的コヒーレンスや制御可能な波形を含む多くの興味深い特性を持つ多目的狭帯域トリトン生成が可能となり、長距離量子通信、ネットワーク、および光子と原子の相互作用による情報処理に最適である。 最も重要なことは、我々の研究は信頼性と効率のよい真の三光子源の開発の道を開くことで、容易に到達可能な多光子絡みの研究を可能にします。

Sources of entangled multiphotons are not only essential for fundamental tests of quantum foundations, but are also the cornerstone of a variety of optical quantum technologies today. Over past three decades, tremendous efforts have been devoted to creating multiphoton entanglement by multiplexing existing biphoton sources with linear optics and postselections. Different from all previous protocols, here we report, for the first time, the observation of continuous-mode time-energy-entangled W-class triphotons with an unprecedented generation rate directly through the process of spontaneous six-wave mixing (SSWM) in a four-level triple-Lambda atomic vapor cell. Facilitated by electromagnetically induced transparency and coherence control, our SSWM scheme enables versatile narrowband triphoton generation with many intriguing properties including long temporal coherence and controllable waveforms, ideal for implementing long-distance quantum communications, networking, and information processing by interfacing photons and atoms. Most importantly, our work paves a way for the development of a reliable and efficient genuine triphoton source, thus making the research on multiphoton entanglement within easy reach.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# PASS:雑音ラベルを用いた学習のためのピアアグリメントに基づくサンプル選択

PASS: Peer-Agreement based Sample Selection for training with Noisy Labels ( http://arxiv.org/abs/2303.10802v2 )

ライセンス: Link先を確認
Arpit Garg, Cuong Nguyen, Rafael Felix, Thanh-Toan Do, Gustavo Carneiro, (参考訳) ノイズラベルサンプルの頻度は、深層学習において重要な課題となり、過剰適合効果を誘発する。 そのため、ノイズラベル(LNL)技術による学習の出現を動機付け、ノイズラベルとクリーンラベルのサンプルを分離し、各グループに異なる学習戦略を適用する。 現在の手法は、ノイズとクリーンなラベルのサンプルを分離するために、小さな損失仮説や特徴に基づく選択に頼っていることが多いが、我々の経験的観察は、特に事例依存ノイズ(IDN)を持つラベルに対して、それらの制限を明らかにしている。 IDNの重要な特徴は、決定境界付近にあるクリーンラベルサンプル(ハードサンプル)とノイズラベルサンプルとの区別が難しいことである。 そこで我々は,PASS (Peer-Agreement based Sample Selection) と呼ばれる新しいノイズラベル検出手法を提案する。 分類器のトリオを利用して、PASSは2つのモデルのコンセンサス駆動のピアベースの合意を採用し、残りのモデルをトレーニングするためのサンプルを選択する。 PASSは既存のLNLモデルに容易に統合され、ノイズやクリーンラベルのサンプルの検出精度が向上し、様々なLNLベンチマークの分類精度が向上する。

The prevalence of noisy-label samples poses a significant challenge in deep learning, inducing overfitting effects. This has, therefore, motivated the emergence of learning with noisy-label (LNL) techniques that focus on separating noisy- and clean-label samples to apply different learning strategies to each group of samples. Current methodologies often rely on the small-loss hypothesis or feature-based selection to separate noisy- and clean-label samples, yet our empirical observations reveal their limitations, especially for labels with instance dependent noise (IDN). An important characteristic of IDN is the difficulty to distinguish the clean-label samples that lie near the decision boundary (i.e., the hard samples) from the noisy-label samples. We, therefore, propose a new noisy-label detection method, termed Peer-Agreement based Sample Selection (PASS), to address this problem. Utilising a trio of classifiers, PASS employs consensus-driven peer-based agreement of two models to select the samples to train the remaining model. PASS is easily integrated into existing LNL models, enabling the improvement of the detection accuracy of noisy- and clean-label samples, which increases the classification accuracy across various LNL benchmarks.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# UnScene3D: 屋内シーンのための教師なし3Dインスタンスセグメンテーション

UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes ( http://arxiv.org/abs/2303.14541v2 )

ライセンス: Link先を確認
David Rozenberszki, Or Litany, Angela Dai, (参考訳) 3Dのインスタンスセグメンテーションは、私たちを取り巻く世界の幾何学的理解の基礎である。 既存の3Dシーンのセグメンテーションの方法は、高価な手作業による3Dアノテーションの監督に依存している。 室内スキャンのクラス非依存型3Dインスタンスセグメンテーションのための,初の教師なし3D学習手法UnScene3Dを提案する。 UnScene3Dは、自己教師付き色と幾何学的特徴を活用して、潜在的な対象領域を見つけることによって、まず擬似マスクを生成する。 高分解能な3次元データに基づく効率的な表現と学習を可能にする。 粗い提案は、予測に基づいてモデルを自己学習することで洗練されます。 提案手法は,最先端の教師なし3次元インスタンス分割法を300%以上の精度スコアで改善し,難易度の高い3次元シーンにおいても有効なインスタンス分割を実証する。

3D instance segmentation is fundamental to geometric understanding of the world around us. Existing methods for instance segmentation of 3D scenes rely on supervision from expensive, manual 3D annotations. We propose UnScene3D, the first fully unsupervised 3D learning approach for class-agnostic 3D instance segmentation of indoor scans. UnScene3D first generates pseudo masks by leveraging self-supervised color and geometry features to find potential object regions. We operate on a basis of geometric oversegmentation, enabling efficient representation and learning on high-resolution 3D data. The coarse proposals are then refined through self-training our model on its predictions. Our approach improves over state-of-the-art unsupervised 3D instance segmentation methods by more than 300% Average Precision score, demonstrating effective instance segmentation even in challenging, cluttered 3D scenes.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# 気象予測のためのディープラーニングモデルにおける誘導バイアス

Inductive biases in deep learning models for weather prediction ( http://arxiv.org/abs/2304.04664v2 )

ライセンス: Link先を確認
Jannik Thuemmel, Matthias Karlbauer, Sebastian Otte, Christiane Zarfl, Georg Martius, Nicole Ludwig, Thomas Scholten, Ulrich Friedrich, Volker Wulfmeyer, Bedartha Goswami, Martin V. Butz, (参考訳) 深層学習は、複雑な地球系のプロセスの純粋にデータ駆動型モデルを定式化できるため、地球科学において大きな人気を集めている。 深層学習に基づく天気予報モデル(DLWP)はここ数年で大きな進歩を遂げており、計算コストが比較的少ない既存の数値天気予報モデルに匹敵する予測スキルを達成している。 数百万のパラメータで正確で信頼性があり、抽出可能なDLWPモデルをトレーニングするために、モデル設計は、データとモデル化プロセスに関する構造的仮定を符号化する適切な帰納的バイアスを組み込む必要がある。 適切に選択すれば、これらのバイアスはより高速な学習と、見つからないデータへのより良い一般化を可能にします。 誘導バイアスはDLWPモデルの成功において重要な役割を担っているが、明確には述べられておらず、モデル性能への貢献はいまだ不明である。 本稿では、データ選択、学習目標、損失関数、アーキテクチャ、最適化方法の5つの重要な設計要素について、最先端DLWPモデルの帰納的バイアスをレビューし分析する。 我々は、最も重要な帰納バイアスを特定し、より効率的で確率的なDLWPモデルへの潜在的な道のりを明らかにする。

Deep learning has gained immense popularity in the Earth sciences as it enables us to formulate purely data-driven models of complex Earth system processes. Deep learning-based weather prediction (DLWP) models have made significant progress in the last few years, achieving forecast skills comparable to established numerical weather prediction models with comparatively lesser computational costs. In order to train accurate, reliable, and tractable DLWP models with several millions of parameters, the model design needs to incorporate suitable inductive biases that encode structural assumptions about the data and the modelled processes. When chosen appropriately, these biases enable faster learning and better generalisation to unseen data. Although inductive biases play a crucial role in successful DLWP models, they are often not stated explicitly and their contribution to model performance remains unclear. Here, we review and analyse the inductive biases of state-of-the-art DLWP models with respect to five key design elements: data selection, learning objective, loss function, architecture, and optimisation method. We identify the most important inductive biases and highlight potential avenues towards more efficient and probabilistic DLWP models.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# Odd Oneが登場: 正規化された完全サイクル一貫性のある異常検出器GAN

Spot The Odd One Out: Regularized Complete Cycle Consistent Anomaly Detector GAN ( http://arxiv.org/abs/2304.07769v3 )

ライセンス: Link先を確認
Zahra Dehghanian, Saeed Saravani, Maryam Amirmazlaghani, Mohammad Rahmati, (参考訳) 本研究では,GAN(Generative Adversarial Neural Network, GAN)のパワーを利用して, 再構成誤差の周期的整合性を利用して, 現実のアプリケーションにおける異常検出を行う手法を提案する。 従来の手法は、あらゆる種類の異常に適用できないような、クラス単位での精度のばらつきに悩まされていた。 RCALADという手法は,この構造に新たな識別器を導入し,より効率的な学習プロセスを実現することで,この問題を解決しようとするものである。 さらに、RCALADは入力空間の補足的分布を用いて、通常のデータ分布に向けて再構成を操り、その再構成から異常サンプルを効果的に分離し、より正確な異常検出を容易にする。 モデルの性能をさらに向上させるために、2つの新しい異常スコアが導入された。 提案モデルは6つのデータセットに対する広範囲な実験を通じて徹底的に評価され、既存の最先端モデルよりも優れた結果が得られた。 コードはリサーチコミュニティ(https://github.com/zahraDehghanian97/RCALAD)で簡単に入手できる。

This study presents an adversarial method for anomaly detection in real-world applications, leveraging the power of generative adversarial neural networks (GANs) through cycle consistency in reconstruction error. Previous methods suffer from the high variance between class-wise accuracy which leads to not being applicable for all types of anomalies. The proposed method named RCALAD tries to solve this problem by introducing a novel discriminator to the structure, which results in a more efficient training process. Additionally, RCALAD employs a supplementary distribution in the input space to steer reconstructions toward the normal data distribution, effectively separating anomalous samples from their reconstructions and facilitating more accurate anomaly detection. To further enhance the performance of the model, two novel anomaly scores are introduced. The proposed model has been thoroughly evaluated through extensive experiments on six various datasets, yielding results that demonstrate its superiority over existing state-of-the-art models. The code is readily available to the research community at https://github.com/zahraDehghanian97/RCALAD.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# 自律運転における効率的なSim2Real転送のためのプラットフォームに依存しない深層強化学習フレームワーク

A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer in Autonomous Driving ( http://arxiv.org/abs/2304.08235v2 )

ライセンス: Link先を確認
Dianzhao Li, Ostap Okhrin, (参考訳) 深層強化学習(DRL)は、様々な研究分野における複雑な課題の解決に顕著な成功を収めている。 しかし、シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に移すことは依然として困難である。 この問題に対処するために、プラットフォームに依存した認識モジュールを活用してタスク関連情報を抽出し、車線追従エージェントをシミュレーションで訓練する頑健なDRLフレームワークを提案する。 このフレームワークは、DRLエージェントを最小限の労力で、新しいシミュレーション環境と現実世界にシームレスに転送することを可能にする。 シミュレーションおよび実世界における各種運転シナリオにおけるエージェントの性能評価を行い,シミュレーションにおける人間プレイヤーとPIDベースラインとの比較を行った。 提案手法は,異なるプラットフォームとSim2Realのギャップを著しく減らし,シミュレーションと実環境の両方で同様の性能を実現し,車両を効果的に駆動する。

Deep Reinforcement Learning (DRL) has shown remarkable success in solving complex tasks across various research fields. However, transferring DRL agents to the real world is still challenging due to the significant discrepancies between simulation and reality. To address this issue, we propose a robust DRL framework that leverages platform-dependent perception modules to extract task-relevant information and train a lane-following and overtaking agent in simulation. This framework facilitates the seamless transfer of the DRL agent to new simulated environments and the real world with minimal effort. We evaluate the performance of the agent in various driving scenarios in both simulation and the real world, and compare it to human players and the PID baseline in simulation. Our proposed framework significantly reduces the gaps between different platforms and the Sim2Real gap, enabling the trained agent to achieve similar performance in both simulation and the real world, driving the vehicle effectively.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# 一様静電場により誘起される水素原子の再検討

A revisit on the hydrogen atom induced by a uniform static electric field ( http://arxiv.org/abs/2304.09480v3 )

ライセンス: Link先を確認
Tran Duong Anh-Tai, Le Minh Khang, Nguyen Duy Vy, Thu D. H. Truong, Vinh N. T. Pham, (参考訳) 本稿では,一様静電場により誘導される水素原子のスターク効果を再検討する。 特に、関連するラゲール多項式の積分の一般公式は、研究[Anh-Tai T.D. et al , 2021 AIP Advances \textbf{11} 085310] で提案された次数 n のエルミート多項式の方法を適用することによって導かれた。 二次スターク効果は、この式と時間に依存しない非退化摂動理論を水素に適用することによって得られる。 シーゲルト状態法を用いて数値計算を行い,ベンチマークデータとして機能する。 比較は地上と高励起状態のために図示され、同じ性質を持つ他の原子に対する2次スターク効果公式の適用限界と精度について洞察に富んだ洞察を与える。

In this paper, we revisit the Stark effect of the hydrogen atom induced by a uniform static electric field. In particular, a general formula for the integral of associated Laguerre polynomials was derived by applying the method for Hermite polynomials of degree n proposed in the work [Anh-Tai T.D. et al., 2021 AIP Advances \textbf{11} 085310]. The quadratic Stark effect is obtained by applying this formula and the time-independent non-degenerate perturbation theory to hydrogen. Using the Siegert State method, numerical calculations are performed and serve as data for benchmarking. The comparisons are then illustrated for the ground and some highly excited states to provide an insightful look at the applicable limit and precision of the quadratic Stark effect formula for other atoms with comparable properties.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# グレーコード表現を用いた非自己回帰型多方向飛行軌道予測フレームワーク

A Non-autoregressive Multi-Horizon Flight Trajectory Prediction Framework with Gray Code Representation ( http://arxiv.org/abs/2305.01658v3 )

ライセンス: Link先を確認
Dongyue Guo, Zheng Zhang, Zhen Yan, Jianwei Zhang, Yi Lin, (参考訳) フライトトラジェクトリ予測(Flight Trajectory Prediction, FTP)は、航空管制官がより安全かつ効率的に空域を管理するのを支援する航空交通管制(ATC)において重要な課題である。 既存のアプローチは、通常、自動回帰方式でマルチ水平FTPタスクを実行するため、エラーの蓄積や効率の低い問題に悩まされる。 本稿では,FlightBERT++と呼ばれる新しいフレームワークを提案する。 一 自己回帰的でない方法で直接マルチホライゾン飛行軌道を予知すること。 ii) FlightBERTフレームワークにおけるバイナリエンコーディング(BE)表現の制限を改善する。 具体的には,エンコーダが歴史的観測から時間空間パターンを学習し,デコーダが将来の地平線の飛行状況を予測する,一般化エンコーダデコーダアーキテクチャによって実装される。 従来のアーキテクチャと比較して、先進的な水平方向情報を考えるために革新的な水平方向対応コンテキスト生成器が設計されており、さらに非自己回帰的マルチ水平方向予測を可能にする。 さらに、グレイ符号表現と微分予測パラダイムは、BE表現の高ビットの誤分類に対処するように設計されており、予測における外れ値を大幅に減少させる。 さらに、差分列の定常性を利用して、差分予測の能力を高めるために、差分誘導復号器を提案する。 実世界の飛行軌跡データセット上で提案した枠組みを検証するため,大規模な実験を行った。 実験の結果,提案フレームワークはFTP性能と計算効率の両面において,競合する基本性能よりも優れていた。

Flight Trajectory Prediction (FTP) is an essential task in Air Traffic Control (ATC), which can assist air traffic controllers in managing airspace more safely and efficiently. Existing approaches generally perform multi-horizon FTP tasks in an autoregressive manner, thereby suffering from error accumulation and low-efficiency problems. In this paper, a novel framework, called FlightBERT++, is proposed to i) forecast multi-horizon flight trajectories directly in a non-autoregressive way, and ii) improve the limitation of the binary encoding (BE) representation in the FlightBERT framework. Specifically, the proposed framework is implemented by a generalized encoder-decoder architecture, in which the encoder learns the temporal-spatial patterns from historical observations and the decoder predicts the flight status for the future horizons. Compared to conventional architecture, an innovative horizon-aware contexts generator is dedicatedly designed to consider the prior horizon information, which further enables non-autoregressive multi-horizon prediction. Additionally, the Gray code representation and the differential prediction paradigm are designed to cope with the high-bit misclassifications of the BE representation, which significantly reduces the outliers in the predictions. Moreover, a differential prompted decoder is proposed to enhance the capability of the differential predictions by leveraging the stationarity of the differential sequence. Extensive experiments are conducted to validate the proposed framework on a real-world flight trajectory dataset. The experimental results demonstrated that the proposed framework outperformed the competitive baselines in both FTP performance and computational efficiency.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-30
# ProgDTD:Double-Tail-Drop Trainingによるプログレッシブラーニング画像圧縮

ProgDTD: Progressive Learned Image Compression with Double-Tail-Drop Training ( http://arxiv.org/abs/2305.02145v2 )

ライセンス: Link先を確認
Ali Hojjat, Janek Haberer, Olaf Landsiedel, (参考訳) プログレッシブ圧縮により、画像は低解像度バージョンとしてロードを開始することができ、より多くのデータが受信されるとより明確になる。 これにより、例えばネットワーク接続が遅い場合、ユーザエクスペリエンスが向上する。 現在、画像圧縮のほとんどのアプローチ(古典的・学習的手法)は非プログレッシブに設計されている。 本稿では,学習した非プログレッシブな画像圧縮アプローチをプログレッシブなものに変換する訓練手法であるProgDTDを紹介する。 ProgDTDの設計は、圧縮モデルのボトルネックに格納されている情報が一般的に重要度が異なるという観察に基づいている。 プログレッシブ圧縮モデルを作成するために、ProgDTDはトレーニングステップを変更して、優先順位でソートされたボトルネックにデータを格納するようにモデルを強制する。 我々は、そのソートインデックスの順にデータを送信することで、プログレッシブ圧縮を実現する。 ProgDTDはCNNベースの学習画像圧縮モデル用に設計されており、追加のパラメータを必要としない。 評価のために、学習画像圧縮において最も一般的な構造の一つであるハイパープライアモデルにProgDTDを適用する。 実験の結果,ProgDTDは,MS-SSIMと精度の観点から,非プログレッシブ・プログレッシブ・モデルや他の最先端のプログレッシブ・モデルと相容れない性能を示した。

Progressive compression allows images to start loading as low-resolution versions, becoming clearer as more data is received. This increases user experience when, for example, network connections are slow. Today, most approaches for image compression, both classical and learned ones, are designed to be non-progressive. This paper introduces ProgDTD, a training method that transforms learned, non-progressive image compression approaches into progressive ones. The design of ProgDTD is based on the observation that the information stored within the bottleneck of a compression model commonly varies in importance. To create a progressive compression model, ProgDTD modifies the training steps to enforce the model to store the data in the bottleneck sorted by priority. We achieve progressive compression by transmitting the data in order of its sorted index. ProgDTD is designed for CNN-based learned image compression models, does not need additional parameters, and has a customizable range of progressiveness. For evaluation, we apply ProgDTDto the hyperprior model, one of the most common structures in learned image compression. Our experimental results show that ProgDTD performs comparably to its non-progressive counterparts and other state-of-the-art progressive models in terms of MS-SSIM and accuracy.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# ランダム化ベンチマークにおけるオペレーショナルマルコビアン化

Operational Markovianization in Randomized Benchmarking ( http://arxiv.org/abs/2305.04704v2 )

ライセンス: Link先を確認
Pedro Figueroa-Romero, Miha Papič, Adrian Auer, Min-Hsiu Hsieh, Kavan Modi, Inés de Vega, (参考訳) 最適で信頼性の高い量子デバイスを得るための重要なタスクは、その全体的なパフォーマンスを定量化することである。 量子ゲートの平均忠実度(英: average fidelity of quantum gates)は、ランダム化ベンチマーク(Randomized Benchmarking, RB)によって効率的に推定できる特定のメリットの指標である。 しかし、ゲート忠実性の概念自体は、ノイズが予測可能、時間的、あるいはいわゆるマルコフ的方法で振る舞うという決定的な仮定に依存している。 我々は,動的デカップリング (DD) やランダムコンパイル (RC) などのエラー抑制技術がRBを動作的にマルコビアン化できることを解析的に示す。 i)高速DDは、非マルコフRBを指数的崩壊と長時間の補正に還元する一方、一方、非マルコフRBを減少させる。 二 通常、RCは平均に影響を与えないが、 三 このようなRB出力の分散を常に抑制する。 量子雑音モデルを用いてこれらの効果を数値的に示す。 提案手法は,非マルコフ雑音を同時に低減し,標準かつ信頼性の高いゲート品質推定を可能にする。

A crucial task to obtain optimal and reliable quantum devices is to quantify their overall performance. The average fidelity of quantum gates is a particular figure of merit that can be estimated efficiently by Randomized Benchmarking (RB). However, the concept of gate-fidelity itself relies on the crucial assumption that noise behaves in a predictable, time-local, or so-called Markovian manner, whose breakdown can naturally become the leading source of errors as quantum devices scale in size and depth. We analytically show that error suppression techniques such as Dynamical Decoupling (DD) and Randomized Compiling (RC) can operationally Markovianize RB: i) fast DD reduces non-Markovian RB to an exponential decay plus longer-time corrections, while on the other hand, ii) RC generally does not affect the average, but iii) it always suppresses the variance of such RB outputs. We demonstrate these effects numerically with a qubit noise model. Our results show that simple and efficient error suppression methods can simultaneously tame non-Markovian noise and allow for standard and reliable gate quality estimation, a fundamentally important task in the path toward fully functional quantum devices.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# 奥行き分割型クロスモーダル学習によるマルチプロンプト

Multi-Prompt with Depth Partitioned Cross-Modal Learning ( http://arxiv.org/abs/2305.06221v4 )

ライセンス: Link先を確認
Yingjie Tian, Yiqi Wang, Xianda Guo, Zheng Zhu, Long Chen, (参考訳) 近年,様々な下流タスクのための大規模視覚言語事前学習モデルにソフトプロンプト学習法が提案されている。 これらの手法は通常、学習可能なテキストトークンとクラストークンをフリーズパラメータを持つモデルの入力として組み合わせる。 しかし、クラスコンテキストを記述するために単一のプロンプトを使うことが多く、カテゴリの多様な属性を適切にキャプチャできない。 本研究は,学習可能な1つのプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術であるパーティショルド・マルチモーダル・プロンプト(PMPO)を紹介する。 本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,視覚表現の階層的な文脈深度を捉えることができる。 さらに、マルチプロンプト学習の利点を最大化するために、手作業で設計したテンプレートや学習可能なマルチプロンプトからの事前情報を組み込むことにより、このアプローチの一般化能力を向上させる。 我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。 例えば,本手法は,11種類の画像認識データセット(+7.62ドル)を平均して79.28ドルという高調波平均を達成し,最先端のプロンプト手法と比較して大きな競争力を示した。

In recent years, soft prompt learning methods have been proposed to fine-tune large-scale vision-language pre-trained models for various downstream tasks. These methods typically combine learnable textual tokens with class tokens as input for models with frozen parameters. However, they often employ a single prompt to describe class contexts, failing to capture categories' diverse attributes adequately. This study introduces the Partitioned Multi-modal Prompt (PMPO), a multi-modal prompting technique that extends the soft prompt from a single learnable prompt to multiple prompts. Our method divides the visual encoder depths and connects learnable prompts to the separated visual depths, enabling different prompts to capture the hierarchical contextual depths of visual representations. Furthermore, to maximize the advantages of multi-prompt learning, we incorporate prior information from manually designed templates and learnable multi-prompts, thus improving the generalization capabilities of our approach. We evaluate the effectiveness of our approach on three challenging tasks: new class generalization, cross-dataset evaluation, and domain generalization. For instance, our method achieves a $79.28$ harmonic mean, averaged over 11 diverse image recognition datasets ($+7.62$ compared to CoOp), demonstrating significant competitiveness compared to state-of-the-art prompting methods.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# リモートセンシング画像シーン分類のための人間アノテートラベルノイズとConvNetsへの影響

Human-annotated label noise and their impact on ConvNets for remote sensing image scene classification ( http://arxiv.org/abs/2305.12106v2 )

ライセンス: Link先を確認
Longkang Peng, Tao Wei, Xuehong Chen, Xiaobei Chen, Rui Sun, Luoma Wan, Jin Chen, Xiaolin Zhu, (参考訳) 畳み込みニューラルネットワーク(ConvNet)は衛星画像シーンの分類に成功している。 人間のラベル付きトレーニングデータセットは、ConvNetsが正確な分類を行うために不可欠である。 人間の注釈付きトレーニングデータセットのエラーは、衛星画像の複雑さのために避けられない。 しかし,リモートセンシング画像における実世界の人間関連ラベルノイズの分布とConvNetへの影響は検討されていない。 この研究ギャップを埋めるために、32人の参加者から実世界のラベルを初めて収集し、その注釈付きラベルノイズがリモートセンシング画像シーン分類のための3つの代表ConvNets(VGG16、GoogleNet、ResNet-50)に与える影響を調べた。 その結果,(1)人間のアノテートラベルノイズは,有意なクラスとインスタンス依存性を示し,(2)トレーニングデータに付加されたアノテートラベルノイズの1%は,ConvNets分類の全体的な精度を0.5%低下させる,(3)ConvNet予測の誤りパターンは,参加者のラベルと強く相関していた。 ConvNetsにおける人間のラベル誤りの影響のメカニズムを明らかにするため、シミュレーションされた3種類のラベルノイズ(一様ノイズ、クラス依存ノイズ、インスタンス依存ノイズ)と比較した。 以上の結果から,ConvNetsにおけるヒトのアノテートラベルノイズの影響は3種類のシミュレートラベルノイズと大きく異なるが,クラス依存性とインスタンス依存性は,ヒトのアノテートラベルノイズがConvNetsに与える影響に寄与することが示された。 これらの観測は,ノイズラベルの扱いの再評価を必要とし,実世界のラベルノイズデータセットが,ラベルノイズ学習アルゴリズムの開発と評価を促進することを期待する。

Convolutional neural networks (ConvNets) have been successfully applied to satellite image scene classification. Human-labeled training datasets are essential for ConvNets to perform accurate classification. Errors in human-annotated training datasets are unavoidable due to the complexity of satellite images. However, the distribution of real-world human-annotated label noises on remote sensing images and their impact on ConvNets have not been investigated. To fill this research gap, this study, for the first time, collected real-world labels from 32 participants and explored how their annotated label noise affect three representative ConvNets (VGG16, GoogleNet, and ResNet-50) for remote sensing image scene classification. We found that: (1) human-annotated label noise exhibits significant class and instance dependence; (2) an additional 1% of human-annotated label noise in training data leads to 0.5% reduction in the overall accuracy of ConvNets classification; (3) the error pattern of ConvNet predictions was strongly correlated with that of participant's labels. To uncover the mechanism underlying the impact of human labeling errors on ConvNets, we further compared it with three types of simulated label noise: uniform noise, class-dependent noise and instance-dependent noise. Our results show that the impact of human-annotated label noise on ConvNets significantly differs from all three types of simulated label noise, while both class dependence and instance dependence contribute to the impact of human-annotated label noise on ConvNets. These observations necessitate a reevaluation of the handling of noisy labels, and we anticipate that our real-world label noise dataset would facilitate the future development and assessment of label-noise learning algorithms.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# 確率的ディープラーニングのためのカーネル密度行列

Kernel Density Matrices for Probabilistic Deep Learning ( http://arxiv.org/abs/2305.18204v3 )

ライセンス: Link先を確認
Fabio A. González, Raúl Ramos-Pollán, Joseph A. Gallego-Mejia, (参考訳) 本稿では,確率的深層学習,カーネル密度行列に対する新しいアプローチを提案する。 量子力学において、密度行列は量子系の状態を記述する最も一般的な方法である。 この研究は密度行列の概念を拡張し、それを再生されたカーネルヒルベルト空間で定義できるようにする。 この抽象化により、密度推定、推論、サンプリングのための微分可能なモデルの構築が可能になり、エンドツーエンドのディープニューラルモデルへの統合が可能になる。 そこで我々は,距離分布と結合確率分布を多義的に表現し,密度推定,識別学習,生成モデルなど,幅広い機械学習タスクをカバーする,微分可能,構成可能,可逆的推論手順を開発する。 フレームワークの幅広い適用性は、自然に条件付き生成モデルに変換できる画像分類モデルと、トレーニングサンプルにおける不確実性に対処するフレームワークの能力を示すラベル比で学習するモデルである。 このフレームワークはライブラリとして実装されており、https://github.com/fagonzalezo/kdm.comで利用可能である。

This paper introduces a novel approach to probabilistic deep learning, kernel density matrices, which provide a simpler yet effective mechanism for representing joint probability distributions of both continuous and discrete random variables. In quantum mechanics, a density matrix is the most general way to describe the state of a quantum system. This work extends the concept of density matrices by allowing them to be defined in a reproducing kernel Hilbert space. This abstraction allows the construction of differentiable models for density estimation, inference, and sampling, and enables their integration into end-to-end deep neural models. In doing so, we provide a versatile representation of marginal and joint probability distributions that allows us to develop a differentiable, compositional, and reversible inference procedure that covers a wide range of machine learning tasks, including density estimation, discriminative learning, and generative modeling. The broad applicability of the framework is illustrated by two examples: an image classification model that can be naturally transformed into a conditional generative model, and a model for learning with label proportions that demonstrates the framework's ability to deal with uncertainty in the training samples. The framework is implemented as a library and is available at: https://github.com/fagonzalezo/kdm.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# 拡散モデルにおける学習後量子化の高精度化に向けて

Towards Accurate Post-training Quantization for Diffusion Models ( http://arxiv.org/abs/2305.18723v4 )

ライセンス: Link先を確認
Changyuan Wang, Ziwei Wang, Xiuwei Xu, Yansong Tang, Jie Zhou, Jiwen Lu, (参考訳) 本稿では,効率的な画像生成のための拡散モデル(ADP-DM)の高精度なデータ自由後量子化フレームワークを提案する。 従来のデータ自由量子化法は、生成時間によらずテンソル離散化のための共有量子化関数を学習するが、活性化分布は様々な時間ステップで大きく異なる。 キャリブレーション画像は、一般化可能な量子化関数学習のための十分な情報を提供できないランダムな時間ステップで取得される。 どちらの問題も大きな量子化誤差を引き起こし、画像生成性能は明らかに低下する。 それとは対照的に、異なる時間ステップにおけるアクティベーション離散化のためのグループワイド量子化関数を設計し、情報キャリブレーション画像生成のための最適な時間ステップをサンプリングすることにより、量子化拡散モデルにより、計算オーバーヘッドの無視による離散化誤差を低減することができる。 具体的には、異なるグループにおける量子化関数の重み付けにより、時間ステップを分割する。 また、量子化拡散モデルの展開における一般化能力を高めるために、構造的リスク最小化原理によるキャリブレーション画像生成のための最適な時間ステップを選択する。 実験結果から,提案手法は拡散モデルの最先端の学習後量子化に類似した計算コストで大きなマージンで優れることを示した。

In this paper, we propose an accurate data-free post-training quantization framework of diffusion models (ADP-DM) for efficient image generation. Conventional data-free quantization methods learn shared quantization functions for tensor discretization regardless of the generation timesteps, while the activation distribution differs significantly across various timesteps. The calibration images are acquired in random timesteps which fail to provide sufficient information for generalizable quantization function learning. Both issues cause sizable quantization errors with obvious image generation performance degradation. On the contrary, we design group-wise quantization functions for activation discretization in different timesteps and sample the optimal timestep for informative calibration image generation, so that our quantized diffusion model can reduce the discretization errors with negligible computational overhead. Specifically, we partition the timesteps according to the importance weights of quantization functions in different groups, which are optimized by differentiable search algorithms. We also select the optimal timestep for calibration image generation by structural risk minimizing principle in order to enhance the generalization ability in the deployment of quantized diffusion model. Extensive experimental results show that our method outperforms the state-of-the-art post-training quantization of diffusion model by a sizable margin with similar computational cost.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# 図形モデルに基づくノイズレート推定を用いたインスタンス依存型雑音ラベル学習

Instance-dependent Noisy-label Learning with Graphical Model Based Noise-rate Estimation ( http://arxiv.org/abs/2305.19486v2 )

ライセンス: Link先を確認
Arpit Garg, Cuong Nguyen, Rafael Felix, Thanh-Toan Do, Gustavo Carneiro, (参考訳) ディープ・ラーニング(Deep Learning)は、ノイズの多いラベルを扱う際に深刻な課題に直面している。 この課題は、不明瞭なサンプル情報から生じるラベルノイズの現実的な形態である、インスタンス依存ノイズ(IDN)の存在によってさらに複雑になる。 IDNに対処するために、ラベルノイズ学習(LNL)は、クリーンでノイズの多いラベルサンプルを区別するためにサンプル選択ステージを組み込んでいる。 このステージは任意の基準と事前定義されたカリキュラムを使用しており、当初はほとんどのサンプルをノイズとして選択し、トレーニング中にこの選択率を徐々に減少させる。 このようなカリキュラムは、トレーニングセットの実際のラベルノイズ率を考慮していないため、準最適である。 本稿では,より効果的なカリキュラムを作成するために,ほとんどのSOTA (State-of-the-art) LNL法と容易に統合できる新しいノイズレート推定手法を用いて,この問題に対処する。 合成および実世界のベンチマークの結果、SOTA LNL法と我々のアプローチを統合することで、ほとんどの場合精度が向上することが示された。

Deep learning faces a formidable challenge when handling noisy labels, as models tend to overfit samples affected by label noise. This challenge is further compounded by the presence of instance-dependent noise (IDN), a realistic form of label noise arising from ambiguous sample information. To address IDN, Label Noise Learning (LNL) incorporates a sample selection stage to differentiate clean and noisy-label samples. This stage uses an arbitrary criterion and a pre-defined curriculum that initially selects most samples as noisy and gradually decreases this selection rate during training. Such curriculum is sub-optimal since it does not consider the actual label noise rate in the training set. This paper addresses this issue with a new noise-rate estimation method that is easily integrated with most state-of-the-art (SOTA) LNL methods to produce a more effective curriculum. Synthetic and real-world benchmark results demonstrate that integrating our approach with SOTA LNL methods improves accuracy in most cases.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# 局所情報理論目標関数に基づくニューラルラーニングの一般フレームワーク

A General Framework for Interpretable Neural Learning based on Local Information-Theoretic Goal Functions ( http://arxiv.org/abs/2306.02149v2 )

ライセンス: Link先を確認
Abdullah Makkeh, Marcel Graetz, Andreas C. Schneider, David A. Ehrlich, Viola Priesemann, Michael Wibral, (参考訳) 生物学的・人工的なネットワークの性能は目覚ましいが、彼らのローカル学習のダイナミクスがネットワークレベルのタスクソリューションにどのように貢献するかを直感的に理解することは、現在なお課題である。 より局所的な規模に学習をもたらす努力は、確かに価値ある洞察をもたらすが、様々なタスクにまたがって解釈可能かつ適応可能な、局所的な学習目標を記述するための一般的な構成的アプローチは、いまだに欠落している。 我々は以前,部分構造を持つモデルニューロンに対して,高度に適応し,解釈可能な局所情報処理目標を定式化した。 部分的情報分解(PID)の最近の進歩に基づいて、我々は、"不定形"ニューラルネットワークの導入を可能にするパラメトリックな局所学習規則を導出する。 教師なし,教師なし,メモリ学習からタスクを実行するネットワークの汎用性を実証する。 PIDフレームワークの解釈可能な性質を活用することで、インフォモーフィックネットワークは、局所学習の複雑な構造を理解するための貴重なツールとなる。

Despite the impressive performance of biological and artificial networks, an intuitive understanding of how their local learning dynamics contribute to network-level task solutions remains a challenge to this date. Efforts to bring learning to a more local scale indeed lead to valuable insights, however, a general constructive approach to describe local learning goals that is both interpretable and adaptable across diverse tasks is still missing. We have previously formulated a local information processing goal that is highly adaptable and interpretable for a model neuron with compartmental structure. Building on recent advances in Partial Information Decomposition (PID), we here derive a corresponding parametric local learning rule, which allows us to introduce 'infomorphic' neural networks. We demonstrate the versatility of these networks to perform tasks from supervised, unsupervised and memory learning. By leveraging the interpretable nature of the PID framework, infomorphic networks represent a valuable tool to advance our understanding of the intricate structure of local learning.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# デコヒーレンス自由部分空間におけるカー効果に基づく量子論理ゲート

Kerr-effect-based quantum logical gates in decoherence-free subspace ( http://arxiv.org/abs/2306.05625v4 )

ライセンス: Link先を確認
Fang-Fang Du, Gang Fan, Xue-Mei Ren, (参考訳) システムと環境のカップリングによるデコヒーレンス効果は、量子情報処理における2つの(または3つの)量子ビット論理ゲートの効率的な実装におけるエラーにつながる。 幸いなことに、decoherence-free subspace (DFS) が導入されたことにより、decoherence効果の影響を効果的に低減することができる。 本稿では,DFSにおけるクロスカー非線形性を用いて,2つないし3つの論理量子ビットに対して,制御NOT(CNOT),トフォリ,フレドキンゲートなどの量子制御ゲートの族を設定する手法を提案する。 これら3つの論理ゲートは複雑な量子計算回路も補助光子(あるいは絡み合った状態)も必要としない。 3つの論理ゲートの成功確率は、X-ホモジン検出器の異なる測定結果に基づいて、対応する古典的フィードフォワード演算を行うことで近似1であり、その忠実度は、現在の技術による光子損失に対して堅牢である。 提案する論理ゲートは, 単純な線形光学素子, 利用可能な単一量子ビット演算, 成熟度測定方法のみに依存しており, 実用上, 有効である。

The decoherence effect caused by the coupling between the system and the environment undoubtedly leads to the errors in efficient implementations of two (or three) qubit logical gates in quantum information processing. Fortunately, decoherence-free subspace (DFS) introduced can effectively decrease the influence of decoherence effect. In this paper, we propose some schemes for setting up a family of quantum control gates, including controlled-NOT (CNOT), Toffoli, and Fredkin gates for two or three logical qubits by means of cross-Kerr nonlinearities in DFS. These three logical gates require neither complicated quantum computational circuits nor auxiliary photons (or entangled states). The success probabilities of three logical gates are approximate 1 by performing the corresponding classical feed-forward operations based on the different measuring results of the X-homodyne detectors, and their fidelities are robust against the photon loss with the current technology. The proposed logical gates rely on only simple linear-optics elements, available single-qubit operations, and mature measurement methods, making our proposed gates be feasible and efficient in practical applications.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# Smoothness-inducing RegularizationとSpectrogram-based Data Augmentationに基づく水中音響目標認識

Underwater Acoustic Target Recognition based on Smoothness-inducing Regularization and Spectrogram-based Data Augmentation ( http://arxiv.org/abs/2306.06945v3 )

ライセンス: Link先を確認
Ji Xu, Yuan Xie, Wenchao Wang, (参考訳) 水中音響目標認識は、複雑な水中環境と限られたデータ可用性のために難しい課題である。 不十分なデータは、複雑なモデリングをサポートする認識システムの能力を妨げる可能性があるため、その進歩を妨げる。 認識モデルの一般化能力を向上させるため,水中信号のシミュレーションやデータ分散の多様化にデータ拡張などの手法が用いられている。 しかし、水中環境の複雑さは、シミュレーションされた信号が実際のシナリオから逸脱し、非真のデータによって誤認されるバイアスのあるモデルをもたらす可能性がある。 本研究では,性能劣化のリスクを回避しつつ,限られたデータの場合のモデルの一般化能力を高めるための2つの戦略を提案する。 まず、従来のデータ拡張の代替として、正規化項にシミュレートされた信号のみを組み込むスムーズネス誘導正規化を利用する。 さらに、クラス間の関係を捉えるために、局所マスキングと複製(LMR)という特殊なスペクトログラムに基づくデータ拡張戦略を提案する。 提案手法の優位性を示す実験と可視化分析を行った。

Underwater acoustic target recognition is a challenging task owing to the intricate underwater environments and limited data availability. Insufficient data can hinder the ability of recognition systems to support complex modeling, thus impeding their advancement. To improve the generalization capacity of recognition models, techniques such as data augmentation have been employed to simulate underwater signals and diversify data distribution. However, the complexity of underwater environments can cause the simulated signals to deviate from real scenarios, resulting in biased models that are misguided by non-true data. In this study, we propose two strategies to enhance the generalization ability of models in the case of limited data while avoiding the risk of performance degradation. First, as an alternative to traditional data augmentation, we utilize smoothness-inducing regularization, which only incorporates simulated signals in the regularization term. Additionally, we propose a specialized spectrogram-based data augmentation strategy, namely local masking and replicating (LMR), to capture inter-class relationships. Our experiments and visualization analysis demonstrate the superiority of our proposed strategies.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# 制約に基づくアルゴリズムと雑音に基づくアルゴリズムのハイブリッドによる時系列からの因果発見

Causal Discovery from Time Series with Hybrids of Constraint-Based and Noise-Based Algorithms ( http://arxiv.org/abs/2306.08765v2 )

ライセンス: Link先を確認
Daria Bystrova, Charles K. Assaad, Julyan Arbel, Emilie Devijver, Eric Gaussier, Wilfried Thuiller, (参考訳) 制約に基づく手法とノイズに基づく手法は、観測データから因果グラフを明らかにするための2つの異なる方法群である。 しかしどちらも、現実のシナリオでは検証が難しい、あるいは違反される可能性のある強い前提の下で運用されている。 これらの課題に対応するため、仮定違反に対する堅牢性を示す両手法の原則を融合するハイブリッド手法への関心が高まっている。 本稿では,観測時系列から因果グラフを明らかにするために考案された制約に基づく手法と雑音に基づく手法のハイブリッド化のための,新しい包括的枠組みを提案する。 フレームワークは2つのクラスで構成されています。 最初のクラスでは、真のグラフを含むスーパーグラフを特定するためにノイズベースの戦略を採用し、続いて不要なエッジを排除するための制約ベースの戦略を採用している。 第2のクラスでは、制約ベースの戦略を適用してスケルトンを特定し、ノイズベースの戦略を用いて指向する。 この論文は、すべての仮定が満たされているという条件の下で、各クラスに対して理論的保証を提供し、仮定が破られたときのいくつかの特性を概説する。 フレームワークの有効性を検証するために、各クラスの2つのアルゴリズムが、シミュレーションデータ、現実的な生態データ、および多様なアプリケーションから得られた実際のデータセットで実験的にテストされる。 特に、情報技術モニタリングに関連する2つの新しいデータセットが、検討された実際のデータセットのセットに導入されている。 実験結果は、幅広いデータセットにまたがるハイブリッドアプローチの堅牢性と有効性を強調した。

Constraint-based methods and noise-based methods are two distinct families of methods proposed for uncovering causal graphs from observational data. However, both operate under strong assumptions that may be challenging to validate or could be violated in real-world scenarios. In response to these challenges, there is a growing interest in hybrid methods that amalgamate principles from both methods, showing robustness to assumption violations. This paper introduces a novel comprehensive framework for hybridizing constraint-based and noise-based methods designed to uncover causal graphs from observational time series. The framework is structured into two classes. The first class employs a noise-based strategy to identify a super graph, containing the true graph, followed by a constraint-based strategy to eliminate unnecessary edges. In the second class, a constraint-based strategy is applied to identify a skeleton, which is then oriented using a noise-based strategy. The paper provides theoretical guarantees for each class under the condition that all assumptions are satisfied, and it outlines some properties when assumptions are violated. To validate the efficacy of the framework, two algorithms from each class are experimentally tested on simulated data, realistic ecological data, and real datasets sourced from diverse applications. Notably, two novel datasets related to Information Technology monitoring are introduced within the set of considered real datasets. The experimental results underscore the robustness and effectiveness of the hybrid approaches across a broad spectrum of datasets.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# レーダ信号特徴化のためのマルチタスク学習

Multi-task Learning for Radar Signal Characterisation ( http://arxiv.org/abs/2306.13105v2 )

ライセンス: Link先を確認
Zi Huang, Akila Pemasiri, Simon Denman, Clinton Fookes, Terrence Martin, (参考訳) 無線信号認識は民間でも軍事でも重要な課題であり、未知の信号の正確かつタイムリーな識別はスペクトル管理と電子戦において不可欠である。 この分野でのほとんどの研究は、変調分類に深層学習を適用することに集中しており、信号特性化のタスクは未調査領域として残されている。 本稿では,マルチタスク学習(MTL)問題として,レーダ信号の分類と特徴化に取り組むアプローチを提案する。 本稿では,複数のレグレッションタスクと分類タスクを同時最適化するIQST(IQ Signal Transformer)を提案する。 合成レーダデータセット上で提案したMTLモデルの性能を示すとともに,レーダ信号の特徴付けのための一級ベンチマークも提供する。

Radio signal recognition is a crucial task in both civilian and military applications, as accurate and timely identification of unknown signals is an essential part of spectrum management and electronic warfare. The majority of research in this field has focused on applying deep learning for modulation classification, leaving the task of signal characterisation as an understudied area. This paper addresses this gap by presenting an approach for tackling radar signal classification and characterisation as a multi-task learning (MTL) problem. We propose the IQ Signal Transformer (IQST) among several reference architectures that allow for simultaneous optimisation of multiple regression and classification tasks. We demonstrate the performance of our proposed MTL model on a synthetic radar dataset, while also providing a first-of-its-kind benchmark for radar signal characterisation.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# 誤りインフォームド・リファインメントによる未知オブジェクトインスタンスの高速かつ高精度セグメンテーション

Fast and Accurate Unknown Object Instance Segmentation through Error-Informed Refinement ( http://arxiv.org/abs/2306.16132v2 )

ライセンス: Link先を確認
Seunghyeok Back, Sangbeom Lee, Kangmin Kim, Joosoon Lee, Sungho Shin, Jemo Maeng, Kyoobin Lee, (参考訳) 未知の物体の正確な認識は、特に非構造環境における新しい物体を操作する際には、自律ロボットにとって不可欠である。 しかしながら、既存の未知のオブジェクトインスタンスセグメンテーション (UOIS) 法は、しばしば過剰なセグメンテーションと過小セグメンテーションの問題があり、結果として、把握や配置といったその後のロボット作業において、不正確なインスタンス境界と失敗をもたらす。 この課題に対処するために,本論文では,UOIS性能を向上させる高速かつ高精度なモデル非依存改善手法であるINSTA-BEERを紹介する。 このモデルは、まず初期セグメンテーションにおける画素単位の誤差を予測し、次にこれらの誤差推定によって導かれるセグメンテーションを洗練する。 本稿では, オブジェクトインスタンスの境界における画素単位の真正値, 真正値, 偽正値, 偽負値の定量化を行うクアッドメトリック境界誤差を導入し, 細粒度およびインスタンスレベルのセグメンテーション誤差を効果的に捉えた。 さらに、Error Guidance Fusion (EGF)モジュールは、エラー情報を精錬プロセスに統合し、セグメンテーションの品質をさらに向上する。 広く使用されている3つのベンチマークデータセットに対する総合評価では、INSTA-BEERは精度と推測時間の両方で最先端のモデルより優れていた。 さらに, 実際のロボット実験により, 分散環境における対象物体把握タスクの性能向上に本手法の有効性を実証した。

Accurate perception of unknown objects is essential for autonomous robots, particularly when manipulating novel items in unstructured environments. However, existing unknown object instance segmentation (UOIS) methods often have over-segmentation and under-segmentation problems, resulting in inaccurate instance boundaries and failures in subsequent robotic tasks such as grasping and placement. To address this challenge, this article introduces INSTA-BEER, a fast and accurate model-agnostic refinement method that enhances the UOIS performance. The model adopts an error-informed refinement approach, which first predicts pixel-wise errors in the initial segmentation and then refines the segmentation guided by these error estimates. We introduce the quad-metric boundary error, which quantifies pixel-wise true positives, true negatives, false positives, and false negatives at the boundaries of object instances, effectively capturing both fine-grained and instance-level segmentation errors. Additionally, the Error Guidance Fusion (EGF) module explicitly integrates error information into the refinement process, further improving segmentation quality. In comprehensive evaluations conducted on three widely used benchmark datasets, INSTA-BEER outperformed state-of-the-art models in both accuracy and inference time. Moreover, a real-world robotic experiment demonstrated the practical applicability of our method in improving the performance of target object grasping tasks in cluttered environments.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# 一定深さにおけるロバストスパースIQPサンプリング

Robust sparse IQP sampling in constant depth ( http://arxiv.org/abs/2307.10729v3 )

ライセンス: Link先を確認
Louis Paletta, Anthony Leverrier, Alain Sarlette, Mazyar Mirrahimi, Christophe Vuillot, (参考訳) NISQ(ノイズの多い中間スケール量子)アプローチと完全フォールトトレラント量子計算の証明のないアプローチの間には、最小の誤差補正条件でノイズに頑健な証明可能な超多項式量子優位性(いくつかの広く受け入れられている複雑性予想の下で)を実現するためのスキームを提案する。 我々は、スパースIQP(Instantaneous Quantum Polynomial-time)回路と呼ばれる通勤ゲートのサンプリング問題の種類を選択し、テトラヘリックス符号を導入することにより、その耐故障性を確保する。 この新符号は、複数の四面体符号(3Dカラーコード)をマージして取得され、各スパースIQPゲートがトランスバーサル実装を認め、論理回路の深さをその幅で交換できるという特性を持つ。 これらを組み合わせることで、符号化状態の準備まで、任意のスパースIQP回路のディープ-1実装が得られる。 これは、元の回路の幅で多対数しか持たない空間オーバーヘッドのコストが伴う。 さらに、従来の計算からフィードフォワードの単一ステップで、状態準備を一定の深さで行うこともできることを示す。 そこで本研究では,1ラウンドの計測とフィードフォワードで一定深度回路上に実装したサンプリング問題に対して,ロバストなスーパーポリノミカル量子優位性を示す。

Between NISQ (noisy intermediate scale quantum) approaches without any proof of robust quantum advantage and fully fault-tolerant quantum computation, we propose a scheme to achieve a provable superpolynomial quantum advantage (under some widely accepted complexity conjectures) that is robust to noise with minimal error correction requirements. We choose a class of sampling problems with commuting gates known as sparse IQP (Instantaneous Quantum Polynomial-time) circuits and we ensure its fault-tolerant implementation by introducing the tetrahelix code. This new code is obtained by merging several tetrahedral codes (3D color codes) and has the following properties: each sparse IQP gate admits a transversal implementation, and the depth of the logical circuit can be traded for its width. Combining those, we obtain a depth-1 implementation of any sparse IQP circuit up to the preparation of encoded states. This comes at the cost of a space overhead which is only polylogarithmic in the width of the original circuit. We furthermore show that the state preparation can also be performed in constant depth with a single step of feed-forward from classical computation. Our construction thus exhibits a robust superpolynomial quantum advantage for a sampling problem implemented on a constant depth circuit with a single round of measurement and feed-forward.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-30
# スパースビューCT画像再構成のための条件生成遅延最適化

Conditioning Generative Latent Optimization for Sparse-View CT Image Reconstruction ( http://arxiv.org/abs/2307.16670v3 )

ライセンス: Link先を確認
Thomas Braure, Delphine Lazaro, David Hateau, Vincent Brandon, Kévin Ginsburger, (参考訳) CT(Computerd Tomography)は、スパースX線投影のような劣化測定装置におけるデータ駆動手法の非侵襲的な性能を強調したイメージング逆問題の一例である。 ディープラーニングアプローチのかなりの割合は、大規模な教師付きデータセットの恩恵を受けているが、それらは新しい実験的な設定に一般化することはできない。 対照的に、完全に教師なしのテクニック、特にスコアベースの生成モデルの使用は、最近、教師付きアプローチと同じような、あるいはより良いパフォーマンスを示し、テスト時には柔軟である。 しかし、それらのユースケースは、優れた一般化特性を持つためにかなりの量のトレーニングデータを必要とするため、制限されている。 深層畳み込みネットワークの暗黙の自然バイアスを利用した別の教師なしアプローチであるDeep Image Priorは、最近、再構成問題を再パラメータ化してスパースCTの解決に適応した。 この手法ではトレーニングデータセットは必要としないが、データ駆動の手法と比較して再構築に先立って弱体化している。 これら2つの戦略のギャップを埋めるために、生成潜在最適化フレームワーク(cGLO)に対する教師なし条件付きアプローチを提案する。 DIPと同様に、トレーニングデータセットなしでは、cGLOはデコーダネットワークの構造バイアスの恩恵を受ける。 しかし、同じデコーダネットワークを介して同時に再構成される複数のスライス間で共有される可能性目標の効果により、前者がさらに強化される。 さらに、デコーダのパラメータは、教師なし、そして最終的には非常に小さなトレーニングデータセットで初期化され、再構成を強化することができる。 得られたアプローチは、複数のトレーニングデータセットサイズと様々な視角を用いて、フルドーズスパースCTで検証される。

Computed Tomography (CT) is a prominent example of Imaging Inverse Problem highlighting the unrivaled performances of data-driven methods in degraded measurements setups like sparse X-ray projections. Although a significant proportion of deep learning approaches benefit from large supervised datasets, they cannot generalize to new experimental setups. In contrast, fully unsupervised techniques, most notably using score-based generative models, have recently demonstrated similar or better performances compared to supervised approaches while being flexible at test time. However, their use cases are limited as they need considerable amounts of training data to have good generalization properties. Another unsupervised approach taking advantage of the implicit natural bias of deep convolutional networks, Deep Image Prior, has recently been adapted to solve sparse CT by reparameterizing the reconstruction problem. Although this methodology does not require any training dataset, it enforces a weaker prior on the reconstructions when compared to data-driven methods. To fill the gap between these two strategies, we propose an unsupervised conditional approach to the Generative Latent Optimization framework (cGLO). Similarly to DIP, without any training dataset, cGLO benefits from the structural bias of a decoder network. However, the prior is further reinforced as the effect of a likelihood objective shared between multiple slices being reconstructed simultaneously through the same decoder network. In addition, the parameters of the decoder may be initialized on an unsupervised, and eventually very small, training dataset to enhance the reconstruction. The resulting approach is tested on full-dose sparse-view CT using multiple training dataset sizes and varying numbers of viewing angles.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# 非標準ハバードモデルと電子対

Nonstandard Hubbard model and electron pairing ( http://arxiv.org/abs/2307.16737v3 )

ライセンス: Link先を確認
M. Zendra, F. Borgonovi, G. L. Celardo, S. Gurvitz, (参考訳) 任意の単一粒子ポテンシャルプロファイルと粒子間相互作用に適用可能な非標準ハバードモデルを提案する。 我々の手法は、従来の方法のあいまいさから解放され、周期性制約のない有限系に適用可能な、ワニエ関数の新しい処理を含む。 ワニエ関数の一貫した評価を保証するため,バリア浸透係数を摂動パラメータとして用いた摂動アプローチを開発した。 新たに定義されたワニエ函数を基底として、ハバード・ハミルトニアン(英語版)を導出し、標準貢献とともに密度誘起トンネル項とペアトンネル項の出現を明らかにする。 我々の研究は、長距離粒子間相互作用が、反発性粒子対の新たなメカニズムを誘導できることを実証している。 この機構は密度誘起トンネルによる単一粒子トンネルの効果的抑制に依存している。 標準的なハバードモデルに基づく期待とは対照的に、粒子間相互作用の増加は絶縁状態に繋がらない。 その代わり、提案したメカニズムは相関電子対のコヒーレントな運動を示唆しており、これは多井戸系の境界状態と似ており、単一電子トンネル遷移による崩壊に耐性がある。 これらの発見は、平らなバンドの形成、二層グラフェンの超伝導の出現、新しい金属絶縁体転移の可能性など、様々な現象に重要な意味を持つ。

We present a non-standard Hubbard model applicable to arbitrary single-particle potential profiles and inter-particle interactions. Our approach involves a novel treatment of Wannier functions, free from the ambiguities of conventional methods and applicable to finite systems without periodicity constraints. To ensure the consistent evaluation of Wannier functions, we develop a perturbative approach, utilizing the barrier penetration coefficient as a perturbation parameter. With the newly defined Wannier functions as a basis, we derive the Hubbard Hamiltonian, revealing the emergence of density-induced and pair tunneling terms alongside standard contributions. Our investigation demonstrates that long-range inter-particle interactions can induce a novel mechanism for repulsive particle pairing. This mechanism relies on the effective suppression of single-particle tunneling due to density-induced tunneling. Contrary to expectations based on the standard Hubbard model, an increase in inter-particle interaction does not lead to an insulating state. Instead, our proposed mechanism implies the coherent motion of correlated electron pairs, similar to bound states within a multi-well system, resistant to decay from single-electron tunneling transitions. These findings carry significant implications for various phenomena, including the formation of flat bands, the emergence of superconductivity in twisted bilayer graphene, and the possibility of a novel metal-insulator transition.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# ウィリアムソンの理論における同時シンプレクティック対角化について

On Simultaneous Symplectic Diagonalization in the sense of Williamson's Theorem ( http://arxiv.org/abs/2308.00601v4 )

ライセンス: Link先を確認
Rudra Kamat, (参考訳) ウィリアムソンの定理は対称行列でよく知られている。 本稿では、H\ ormander による対称正半定値行列と負の指数 1 を持つ対称行列に対するウィリアムソンの定理のいくつかの事例を述べ、再導出する。 2つの対称正定行列が同時に対角化できる条件を保証する定理をウィリアムソンの定理とそれらの系で証明する。 最後に、この結果の物理系への応用と、退化および非退化の場合の分解を接続する別の方法を提供し、後に位相空間シリンダーや楕円体にシンプレクティックキャパシティを介して適用する位相空間制約を含む。

Williamson's theorem is well known for symmetric matrices. In this paper, we state and re-derive some of the cases of Williamson's theorem for symmetric positive-semi definite matrices and symmetric matrices having negative index 1, due to H\"ormander. We prove theorems that guarantee conditions under which two symmetric positive-definite matrices can be simultaneously diagonalized in the sense of Williamson's theorem and their corollaries. Finally, we provide an application of this result to physical systems and another connecting the decompositions for the degenerate and non-degenerate cases, involving phase space constraints that we later apply to phase space cylinders and ellipsoids via symplectic capacities.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# グラフパラメータによるパウリ弦の合同数値範囲の境界

Bounding the joint numerical range of Pauli strings by graph parameters ( http://arxiv.org/abs/2308.00753v2 )

ライセンス: Link先を確認
Zhen-Peng Xu, René Schwonnek, Andreas Winter, (参考訳) 量子状態空間と特定の測定セットとの相互作用は、共同で達成可能な期待値のセットを調べることで効果的に捉えることができる。 この集合は一般に(凸)ジョイント数値範囲と呼ばれる。 本研究では、パウリ可観測物のテンソル積(パウリ弦)で表される測定のためのこの構成の幾何学的性質について検討する。 パウリの弦の集合におけるペアワイズ可換性と反可換関係の構造はグラフ$G$(フラストレーショングラフとも呼ばれる)を決定する。 本稿では,このグラフのパラメータと,関節の数値範囲を包含する最小楕円体の構造との関係について検討する。 このような外部近似は、楕円体を高次元でも解析的に扱うことができるので、非常に実用的である。 我々は[C]からの予想に対する反例を見つける。 de Gois, K. Hansenne and O. G\"uhne, arXiv:2207.02197], and answer a open question in [M. B. Hastings and R. O'Donnell, Proc. STOC 2022, pp. 776-789], which suggests a new graph parameter that we called $\beta(G)$. さらに、他の分野におけるグラフ理論のアプローチとの比較、量子情報理論への応用、数値法、新しいグラフパラメータの性質など、このアプローチを様々な方向に展開する。 私たちのアプローチは、最後に簡潔に議論する多くのオープンな質問を提案します。

The interplay between the quantum state space and a specific set of measurements can be effectively captured by examining the set of jointly attainable expectation values. This set is commonly referred to as the (convex) joint numerical range. In this work, we explore geometric properties of this construct for measurements represented by tensor products of Pauli observables, also known as Pauli strings. The structure of pairwise commutation and anticommutation relations among a set of Pauli strings determines a graph $G$, sometimes also called the frustration graph. We investigate the connection between the parameters of this graph and the structure of minimal ellipsoids encompassing the joint numerical range. Such an outer approximation can be very practical since ellipsoids can be handled analytically even in high dimensions. We find counterexamples to a conjecture from [C. de Gois, K. Hansenne and O. G\"uhne, arXiv:2207.02197], and answer an open question in [M. B. Hastings and R. O'Donnell, Proc. STOC 2022, pp. 776-789], which implies a new graph parameter that we call $\beta(G)$. Besides, we develop this approach in different directions, such as comparison with graph-theoretic approaches in other fields, applications in quantum information theory, numerical methods, properties of the new graph parameter, etc. Our approach suggests many open questions that we discuss briefly at the end.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# 個人別(クラスタ化)結果の因果推論

Causal Inference with Differentially Private (Clustered) Outcomes ( http://arxiv.org/abs/2308.00957v2 )

ライセンス: Link先を確認
Adel Javanmard, Vahab Mirrokni, Jean Pouget-Abadie, (参考訳) ランダム化実験から因果効果を推定することは、参加者が潜在的に敏感な反応を明らかにすることに同意すれば実現可能である。 プライバシーを保証する多くの方法の中で、ラベル差分プライバシーはアルゴリズムのプライバシー保証の広く使われている尺度であり、匿名化のリスクを負わずに参加者が応答を共有することを促す可能性がある。 このプライバシー保証を達成するために、多くの微分プライベートメカニズムが元のデータセットにノイズを注入し、ほとんどの統計的推定器のばらつきを増大させ、因果効果の正確な測定を困難にする。 より強力なプライバシ保証のために分散度を低くすることを目的として,新たな差分プライバシー機構であるCluster-DPを提案する。 クラスタの品質を直感的に測定することで,プライバシ保証を維持しながら分散損失を改善することができることを示す。 我々は、その性能を、理論上、経験的に、クラスタ化されていないバージョンと、クラスタDPアルゴリズムの特別な場合である元の応答分布を一切使用しない、より極端な一様バージョンと比較する。

Estimating causal effects from randomized experiments is only feasible if participants agree to reveal their potentially sensitive responses. Of the many ways of ensuring privacy, label differential privacy is a widely used measure of an algorithm's privacy guarantee, which might encourage participants to share responses without running the risk of de-anonymization. Many differentially private mechanisms inject noise into the original data-set to achieve this privacy guarantee, which increases the variance of most statistical estimators and makes the precise measurement of causal effects difficult: there exists a fundamental privacy-variance trade-off to performing causal analyses from differentially private data. With the aim of achieving lower variance for stronger privacy guarantees, we suggest a new differential privacy mechanism, Cluster-DP, which leverages any given cluster structure of the data while still allowing for the estimation of causal effects. We show that, depending on an intuitive measure of cluster quality, we can improve the variance loss while maintaining our privacy guarantees. We compare its performance, theoretically and empirically, to that of its unclustered version and a more extreme uniform-prior version which does not use any of the original response distribution, both of which are special cases of the Cluster-DP algorithm.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# 絶対最大絡み合う状態に対するテンソルネットワーク分解

Tensor network decompositions for absolutely maximally entangled states ( http://arxiv.org/abs/2308.07042v3 )

ライセンス: Link先を確認
Balázs Pozsgay, Ian M. Wanless, (参考訳) 絶対的に極大エンタングルド状態(AME state of $k$ qudits、完全テンソルとも呼ばれる)は、全ての部位/部位の最大エンタングルメントを持つ量子状態である。 そのような状態が、有限個のテンソルを持つテンソルネットワークに分解できるかどうかという問題を考える。 AME状態が$k=6$のとき、3つの4レグテンソルしか持たないネットワークに分解できることが分かり、局所次元$D=5$以上の具体的な解を提供する。 その結果、6つのパーティを持つAME状態は、3つのベル対の積状態からたった3つの2サイトユニタリ、またはそれに相当する6つの2サイトユニタリで生成可能であることが示唆された。 また、$k=8$の問題を考慮し、6つの4レグテンソルを持つ同様のテンソルネットワーク分解を求める。

Absolutely maximally entangled (AME) states of $k$ qudits (also known as perfect tensors) are quantum states that have maximal entanglement for all possible bipartitions of the sites/parties. We consider the problem of whether such states can be decomposed into a tensor network with a small number of tensors, such that all physical and all auxiliary spaces have the same dimension $D$. We find that certain AME states with $k=6$ can be decomposed into a network with only three 4-leg tensors; we provide concrete solutions for local dimension $D=5$ and higher. Our result implies that certain AME states with six parties can be created with only three two-site unitaries from a product state of three Bell pairs, or equivalently, with six two-site unitaries acting on a product state on six qudits. We also consider the problem for $k=8$, where we find similar tensor network decompositions with six 4-leg tensors.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# ルールに基づく動作軌跡分類の誤り検出と補正

Rule-Based Error Detection and Correction to Operationalize Movement Trajectory Classification ( http://arxiv.org/abs/2308.14250v2 )

ライセンス: Link先を確認
Bowen Xi, Kevin Scaria, Paulo Shakarian, (参考訳) 移動軌道の分類は輸送に多くの応用がある。 スーパービジョンされたニューラルモデルは現在の最先端を表現している。 近年のセキュリティアプリケーションは、トレーニングデータが少ないようなモデルをトレーニングするのに使用されるデータとは異なる環境において、このタスクを迅速に採用する必要がある。 我々は,これらのモデルの誤り訂正と検出を行い,最終的なセキュリティアプリケーションへの展開を支援する,ニューロシンボリックなルールベースのフレームワークを提供する。 我々は、最近のいくつかのモデルと最先端モデルに関する一連の実験を行い、全てのクラスが訓練中に存在する場合のSOTAモデルに対して1.7%の精度向上を示し、40%のクラスがトレーニングから省略された場合、ベースモデルの再訓練に頼らずに、SOTAモデルに対して5.2%の改善(ゼロショット)と23.9%の改善(ファウショット)を得る。

Classification of movement trajectories has many applications in transportation. Supervised neural models represent the current state-of-the-art. Recent security applications require this task to be rapidly employed in environments that may differ from the data used to train such models for which there is little training data. We provide a neuro-symbolic rule-based framework to conduct error correction and detection of these models to support eventual deployment in security applications. We provide a suite of experiments on several recent and state-of-the-art models and show an accuracy improvement of 1.7% over the SOTA model in the case where all classes are present in training and when 40% of classes are omitted from training, we obtain a 5.2% improvement (zero-shot) and 23.9% (few-shot) improvement over the SOTA model without resorting to retraining of the base model.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# 部分空間間の距離計算のための量子アルゴリズム

Quantum Algorithm for Computing Distances Between Subspaces ( http://arxiv.org/abs/2308.15432v2 )

ライセンス: Link先を確認
Nhat A. Nghiem, (参考訳) 幾何学とトポロジーは、純粋な数学的原始よりもはるかに多くの影響を生み出しており、多くの応用ツールの基盤となっている。 通常、実世界のデータはベクトルとして表現され、与えられたデータ収集のための線形部分空間を形成する。 異なる部分空間間の計算距離は、一般に、理論的および適用可能な結果の両方において計算的に難しい問題である。 量子アルゴリズムの急速な発展により、量子文脈におけるそのような問題を考慮し、グラスマン距離と楕円距離の2種類の距離を推定するための量子アルゴリズムを提供する。 適切な仮定と条件の下では、量子アルゴリズムの高速化は、与えられたデータの次元とデータポイントの数の両方に関して指数関数的である。 異なる種類の距離を推定するいくつかの拡張は、我々の主量子アルゴリズム法の系として議論される。

Geometry and topology have generated impacts far beyond their pure mathematical primitive, providing a solid foundation for many applicable tools. Typically, real-world data are represented as vectors, forming a linear subspace for a given data collection. Computing distances between different subspaces is generally a computationally challenging problem with both theoretical and applicable consequences, as, for example, the results can be used to classify data from different categories. Fueled by the fast-growing development of quantum algorithms, we consider such problems in the quantum context and provide a quantum algorithm for estimating two kinds of distance: Grassmann distance and ellipsoid distance. Under appropriate assumptions and conditions, the speedup of our quantum algorithm is exponential with respect to both the dimension of the given data and the number of data points. Some extensions regarding estimating different kinds of distance are then discussed as a corollary of our main quantum algorithmic method.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# 可積分性からの非弾性崩壊

Inelastic decay from integrability ( http://arxiv.org/abs/2308.15542v3 )

ライセンス: Link先を確認
Amir Burshtein, Moshe Goldstein, (参考訳) 可積分系の目印は、その励起の純粋に弾性散乱である。 このような系は、多くの局所的に保存された電荷を持ち、散乱する励起の数を保存し、個々のモータの集合を保存する。 本研究は, 積分境界モデルの回路QED実現において, 非弾性減衰が観測可能であることを示す。 本研究では, 超伝導体におけるマイクロ波光子の不純物散乱について検討し, どちらも積分可能な境界正弦-ゴードンモデルと近藤モデルを実装した。 マイクロ波光子に対する非弾性崩壊は、可積分性にもかかわらず可能であり、それらと弾性散乱励起との非線形関係のおかげで、また、積分性は、非弾性崩壊を記述する応答関数の正確な式を得るための強力な解析ツールを提供することを示した。 2点応答関数から抽出したマイクロ波光子の総非弾性減衰率と弾性相変化を計算する。 線形応答を超越して、エネルギー分解非弾性崩壊スペクトルを正確に取得し、3点応答関数のフォームファクタ展開を評価する新しい方法を用いて、積分可能な量子場理論の他の応用で有用であることを示す。 この結果は、近年の光子分裂実験、特にSchmid-Bulgadaev散逸性量子相転移の証拠となる最近の実験データと関係している。

A hallmark of integrable systems is the purely elastic scattering of their excitations. Such systems possess an extensive number of locally conserved charges, leading to the conservation of the number of scattered excitations, as well as their set of individual momenta. In this work, we show that inelastic decay can nevertheless be observed in circuit QED realizations of integrable boundary models. We consider the scattering of microwave photons off impurities in superconducting circuits implementing the boundary sine-Gordon and Kondo models, which are both integrable. We show that not only inelastic decay is possible for the microwave photons, in spite of integrability, and thanks to a nonlinear relation between them and the elastically-scattered excitations, but also that integrability in fact provides powerful analytical tools allowing to obtain exact expressions for response functions describing the inelastic decay. Using the framework of form factors, we calculate the total inelastic decay rate and elastic phase shift of the microwave photons, extracted from a 2-point response function. We then go beyond linear response and obtain the exact energy-resolved inelastic decay spectrum, using a novel method to evaluate form factor expansions of 3-point response functions, which could prove useful in other applications of integrable quantum field theories. We relate our results to several recent photon splitting experiments, and in particular to recent experimental data that provides evidence for the elusive Schmid-Bulgadaev dissipative quantum phase transition.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# ヘテロスケダス性共形レグレッションの条件的妥当性

Conditional validity of heteroskedastic conformal regression ( http://arxiv.org/abs/2309.08313v2 )

ライセンス: Link先を確認
Nicolas Dewolf, Bernard De Baets, Willem Waegeman, (参考訳) 共形予測と分割共形予測を具体的実装として、統計的保証付き予測区間を推定するための分布自由なアプローチを提供する。 近年の研究では、分割等角予測は、限界範囲に焦点をあてた場合の最先端の予測間隔、すなわち、事前に定義されたカバレッジレベルを持つ基底真理を含む平均予測間隔で生成するキャリブレーションデータセットを生成することが可能であることが示されている。 しかし、そのような区間は適応しないことが多く、ヘテロスケダスティックノイズを伴う回帰問題に問題となることがある。 本稿では、正規化やモンドリアン等式予測などの手法を用いて、その基礎となるプロセスのヘテロスケダスト性に適応するように、予測間隔を構築する方法について、新たな光を当てようとしている。 理論的および実験的な結果として,これらの手法を系統的に比較した。 特に、選択された共形予測器の条件付き妥当性が、データ生成分布に関する(単純な)仮定とどのように関連しているかを示す。

Conformal prediction, and split conformal prediction as a specific implementation, offer a distribution-free approach to estimating prediction intervals with statistical guarantees. Recent work has shown that split conformal prediction can produce state-of-the-art prediction intervals when focusing on marginal coverage, i.e. on a calibration dataset the method produces on average prediction intervals that contain the ground truth with a predefined coverage level. However, such intervals are often not adaptive, which can be problematic for regression problems with heteroskedastic noise. This paper tries to shed new light on how prediction intervals can be constructed, using methods such as normalized and Mondrian conformal prediction, in such a way that they adapt to the heteroskedasticity of the underlying process. Theoretical and experimental results are presented in which these methods are compared in a systematic way. In particular, it is shown how the conditional validity of a chosen conformal predictor can be related to (implicit) assumptions about the data-generating distribution.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# DAGプロトコルのためのジェネリックセルフリッシュマイニングMDP

Generic Selfish Mining MDP for DAG Protocols ( http://arxiv.org/abs/2309.11924v2 )

ライセンス: Link先を確認
Patrik Keller, (参考訳) Selfish Miningは、仕事の証明プロトコル[3]とMarkov Decision Processs(MDPs)の報酬を最大化するための戦略的ルール破滅であり、Bitcoin[4, 10]と同様のリニアチェーンプロトコル[12]で最適な戦略を見つけるツールとして好まれています。 プロトコルは、MDP分析がより関与する、非逐次連鎖構造[11]をますます採用している。 これまで研究者は、各プロトコル(2, 4, 5, 7, 10, 12]に対して、特定の攻撃空間を調整してきた。 仮定は異なり、結果の検証と比較は困難である。 これを解決するために,Ethereum,Fruitchains,Parallel Proof-of-Workなど,幅広いDAGプロトコルをサポートする汎用的な攻撃空間を提案する。 それぞれのプロトコルをひとつのプログラムとして指定し、自動的に自家製マイニングMDPを導出します。

Selfish Mining is strategic rule-breaking to maximize rewards in proof-of-work protocols [3] and Markov Decision Processes (MDPs) are the preferred tool for finding optimal strategies in Bitcoin [4, 10] and similar linear chain protocols [12]. Protocols increasingly adopt non-sequential chain structures [11], for which MDP analysis is more involved [2]. To date, researchers have tailored specific attack spaces for each protocol [2, 4, 5, 7, 10, 12]. Assumptions differ, and validating and comparing results is difficult. To overcome this, we propose a generic attack space that supports a wide range of DAG protocols, including Ethereum, Fruitchains, and Parallel Proof-of-Work. Our approach is modular: we specify each protocol as one program, and then derive the Selfish Mining MDPs automatically.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# T5APR:チェックポイントアンサンブルによる言語間の自動プログラム修復の強化

T5APR: Empowering Automated Program Repair across Languages through Checkpoint Ensemble ( http://arxiv.org/abs/2309.15742v3 )

ライセンス: Link先を確認
Reza Gharibi, Mohammad Hadi Sadreddini, Seyed Mostafa Fakhrahmad, (参考訳) 近年、ディープラーニング技術を用いた自動プログラム修復(APR)が重要な研究領域となり、ソフトウェアの信頼性と保守性を向上させるバグ修正パッチを自動生成することを目指している。 しかし、既存のほとんどの手法は単一の言語をターゲットにするか、多言語モデルを訓練するために高い計算資源を必要とする。 本稿では,T5APRを提案する。T5APRは,複数のプログラミング言語にまたがるバグ修正のための統一的なソリューションを提供するニューラルプログラム修復手法である。 T5APRは、トレーニング済みの強力なテキスト-テキスト変換モデルであるCodeT5を活用し、パッチレコメンデーションを改善するためにチェックポイントアンサンブル戦略を採用している。 我々は、4つのプログラミング言語(Java、Python、C、JavaScript)でよく知られた6つのベンチマークを総合的に評価し、T5APRの最先端技術との競争性を実証した。 T5APRは1,985のバグを正しく修正する。 我々は、異なる手法間の正確なパッチランキングを比較するなど、詳細な分析を行うことにより、アプローチの有効性をさらに支援する。 本研究は,実世界の応用におけるT5APRの可能性を示し,APR分野における多言語アプローチの重要性を強調した。

Automated program repair (APR) using deep learning techniques has become an important area of research in recent years, aiming to automatically generate bug-fixing patches that can improve software reliability and maintainability. However, most existing methods either target a single language or require high computational resources to train multilingual models. In this paper, we propose T5APR, a novel neural program repair approach that provides a unified solution for bug fixing across multiple programming languages. T5APR leverages CodeT5, a powerful pre-trained text-to-text transformer model, and adopts a checkpoint ensemble strategy to improve patch recommendation. We conduct comprehensive evaluations on six well-known benchmarks in four programming languages (Java, Python, C, JavaScript), demonstrating T5APR's competitiveness against state-of-the-art techniques. T5APR correctly fixes 1,985 bugs, including 1,442 bugs that none of the compared techniques has fixed. We further support the effectiveness of our approach by conducting detailed analyses, such as comparing the correct patch ranking among different techniques. The findings of this study demonstrate the potential of T5APR for use in real-world applications and highlight the importance of multilingual approaches in the field of APR.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# NOLA:ランダム基底の線形結合によるLORA圧縮

NOLA: Compressing LoRA using Linear Combination of Random Basis ( http://arxiv.org/abs/2310.02556v2 )

ライセンス: Link先を確認
Soroush Abbasi Koohpayegani, KL Navaneet, Parsa Nooralinejad, Soheil Kolouri, Hamed Pirsiavash, (参考訳) 大規模言語モデル(LLM)を微調整し、下流の各タスクやドメインに保存することは、巨大なモデルサイズ(例えば、GPT-3では350GB)のために現実的ではない。 LoRAのような現在の文献は、LLMのもともとの重量に対する低ランクな修正の可能性を示しており、タスク固有のモデルの効率的な適応と記憶を可能にしている。 これらの手法は、LLMを数桁の精度で微調整するために必要なパラメータの数を削減できる。 しかし、これらの手法は、(1) パラメータカウントはランク1分解により下界となり、(2) 縮小の程度はモデルアーキテクチャと選択ランクの両方に大きく影響される。 我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。 これは、ランダムに生成された行列(基底)の線形結合を用いてLoRAの低ランク行列を再パラメータ化し、線形混合係数のみを最適化することで実現される。 このアプローチにより、トレーニング可能なパラメータの数をランクとネットワークアーキテクチャの両方から切り離すことができます。 GPT-2, LLaMA-2, ViT を用いた自然言語およびコンピュータビジョンタスクの適応結果を提案する。 NOLAは、ランク1のLoRAと比較してパラメータ数がはるかに少ないLoRAモデルと同様に、最高の圧縮LoRAをアーカイブできる。 特に LLaMA-2 70B では, 精度を低下させることなく, 圧縮された LoRA よりも約 20 倍コンパクトである。 私たちのコードはこちらで入手可能です。

Fine-tuning Large Language Models (LLMs) and storing them for each downstream task or domain is impractical because of the massive model size (e.g., 350GB in GPT-3). Current literature, such as LoRA, showcases the potential of low-rank modifications to the original weights of an LLM, enabling efficient adaptation and storage for task-specific models. These methods can reduce the number of parameters needed to fine-tune an LLM by several orders of magnitude. Yet, these methods face two primary limitations: (1) the parameter count is lower-bounded by the rank one decomposition, and (2) the extent of reduction is heavily influenced by both the model architecture and the chosen rank. We introduce NOLA, which overcomes the rank one lower bound present in LoRA. It achieves this by re-parameterizing the low-rank matrices in LoRA using linear combinations of randomly generated matrices (basis) and optimizing the linear mixture coefficients only. This approach allows us to decouple the number of trainable parameters from both the choice of rank and the network architecture. We present adaptation results using GPT-2, LLaMA-2, and ViT in natural language and computer vision tasks. NOLA performs as well as LoRA models with much fewer number of parameters compared to LoRA with rank one, the best compression LoRA can archive. Particularly, on LLaMA-2 70B, our method is almost 20 times more compact than the most compressed LoRA without degradation in accuracy. Our code is available here: https://github.com/UCDvision/NOLA
翻訳日:2024-05-01 19:57:27 公開日:2024-04-30
# 話者適応型唇読解のための分離可能な隠れ単位の寄与

Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading ( http://arxiv.org/abs/2310.05058v3 )

ライセンス: Link先を確認
Songtao Luo, Shuang Yang, Shiguang Shan, Xilin Chen, (参考訳) 本稿では,2つの観察から得られた唇読解における話者適応手法を提案する。 第一に、話者自身の特徴は、顔の少ない画像や浅いネットワークを持つ単一の画像によって常にうまく表現できるが、話し手によって表現される音声内容に関連するきめ細かいダイナミックな特徴は、常に正確に表現するために深いシーケンシャルなネットワークを必要とする。 そこで本研究では,話者適応唇読解のための浅層層と深層層を別々に扱う。 第2に, 話者の独特の特徴(例えば, 口蓋腔, 下顎骨)が, 異なる単語や発音に対する唇読取性能に様々な影響を及ぼし, 頑健な唇読取特性の適応的増強や抑制が必要であることを観察した。 これら2つの観測結果から,浅層層と深層層をそれぞれ異なるターゲットで分離可能な隠れ単位の寄与を自動的に学習するために,話者自身の特性を活用することを提案する。 話者の特徴が音声コンテンツ関連特徴よりも強い浅層では,話者適応機能を導入して,音声コンテンツ機能の向上を図る。 話者の特徴と音声内容がすべて良好に表現された深い層に対しては,頑健な唇読解のための無関係な雑音を抑えるために学習する話者適応的特徴を導入する。 提案手法は, 従来手法よりも常に優れており, 包括的分析と異なる設定間の比較によって確認されている。 LRW-ID と GRID データセットの評価に加えて,評価のための新しいデータセット CAS-VSR-S68h もリリースし,少数の話者しか利用できないが音声内容が広範かつ多様化した範囲をカバーしている極端な環境で,その性能を更に評価する。

In this paper, we propose a novel method for speaker adaptation in lip reading, motivated by two observations. Firstly, a speaker's own characteristics can always be portrayed well by his/her few facial images or even a single image with shallow networks, while the fine-grained dynamic features associated with speech content expressed by the talking face always need deep sequential networks to represent accurately. Therefore, we treat the shallow and deep layers differently for speaker adaptive lip reading. Secondly, we observe that a speaker's unique characteristics ( e.g. prominent oral cavity and mandible) have varied effects on lip reading performance for different words and pronunciations, necessitating adaptive enhancement or suppression of the features for robust lip reading. Based on these two observations, we propose to take advantage of the speaker's own characteristics to automatically learn separable hidden unit contributions with different targets for shallow layers and deep layers respectively. For shallow layers where features related to the speaker's characteristics are stronger than the speech content related features, we introduce speaker-adaptive features to learn for enhancing the speech content features. For deep layers where both the speaker's features and the speech content features are all expressed well, we introduce the speaker-adaptive features to learn for suppressing the speech content irrelevant noise for robust lip reading. Our approach consistently outperforms existing methods, as confirmed by comprehensive analysis and comparison across different settings. Besides the evaluation on the popular LRW-ID and GRID datasets, we also release a new dataset for evaluation, CAS-VSR-S68h, to further assess the performance in an extreme setting where just a few speakers are available but the speech content covers a large and diversified range.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# 医用視力訓練のための合成データの利用-実画像の必要性を回避して-

Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images ( http://arxiv.org/abs/2310.07027v2 )

ライセンス: Link先を確認
Che Liu, Anand Shah, Wenjia Bai, Rossella Arcucci, (参考訳) 医用ビジョン・ランゲージ・プレトレーニング(VLP)は、医用画像とペアの放射線学レポートから共同で表現を学習する。 通常、画像エンコーダとテキストエンコーダの両方で効果的な事前トレーニングを実現するために、大規模なペアイメージテキストデータセットが必要である。 VLPは、本物の放射線学レポートから生成された合成画像のみに実装できるため、画像テキストデータセットを広範囲にペアリングし、キュレートする必要性を軽減できるだろうか? 本研究は,医療用VLPにおける合成画像の有用性と有効性を検討することで,この問題を精査するものである。 我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。 3つの最先端のVLPアルゴリズムを用いることで、これらの合成サンプルのみを訓練する。 画像分類,セマンティックセグメンテーション,オブジェクト検出という3つのタスクにおける経験的評価から,合成データによる性能は実画像と同等かそれ以上であることがわかった。 この領域への先駆的な貢献として、匿名化された実放射線学レポートと組み合わせた大規模合成医用画像データセットを導入する。 これにより、医療画像の共有の必要性が軽減されるが、実際はキュレートや共有は容易ではない。 コードとデータセットは \href{https://github.com/cheliu-computation/MedSyn-RepLearn/tree/main}{https://github.com/cheliu-computation/MedSyn-RepLearn/tree/main} にある。

Medical Vision-Language Pre-training (VLP) learns representations jointly from medical images and paired radiology reports. It typically requires large-scale paired image-text datasets to achieve effective pre-training for both the image encoder and text encoder. The advent of text-guided generative models raises a compelling question: Can VLP be implemented solely with synthetic images generated from genuine radiology reports, thereby mitigating the need for extensively pairing and curating image-text datasets? In this work, we scrutinize this very question by examining the feasibility and effectiveness of employing synthetic images for medical VLP. We replace real medical images with their synthetic equivalents, generated from authentic medical reports. Utilizing three state-of-the-art VLP algorithms, we exclusively train on these synthetic samples. Our empirical evaluation across three subsequent tasks, namely image classification, semantic segmentation and object detection, reveals that the performance achieved through synthetic data is on par with or even exceeds that obtained with real images. As a pioneering contribution to this domain, we introduce a large-scale synthetic medical image dataset, paired with anonymized real radiology reports. This alleviates the need of sharing medical images, which are not easy to curate and share in practice. The code and the dataset can be found in \href{https://github.com/cheliu-computation/MedSyn-RepLearn/tree/main}{https://github.com/cheliu-computation/MedSyn-RepLearn/tree/main}.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# 局所ハミルトン力学のシミュレーションの簡易化

Simplifying the simulation of local Hamiltonian dynamics ( http://arxiv.org/abs/2310.07054v2 )

ライセンス: Link先を確認
Ayaka Usui, Anna Sanpera, María García Díaz, (参考訳) 局所ハミルトン群、$H_k$は量子多体系における非自明な$k$ボディ相互作用を記述する。 ここでは、2つのハミルトン空間が同じヒルベルト空間上で作用する現実的制約の下で、$k$-局所ハミルトニアン(英語版)($H_{k'}$, with $k'<k$)の動的シミュラビリティに対処する。 正確なシミュレーションに関しては、同じ物理をシミュレートする$H_k$と$H_{k'}$の例を導出する既知の方法を構築します。 また、近似シミュレーションの最も現実的な事例についても論じる。 そこで、ハミルトニアンがその内部構造に関係なく他のハミルトニアンをシミュレートできる誤差を上限にし、例えば、$(k'=2)$-局所ハミルトニアンが$H_{k}$をシミュレートするために$k>2$が$k$で増加することを証明する。 最後に、与えられた$H_k$ハミルトニアンを最大精度で、与えられた$H_k$ハミルトニアンの短時間ダイナミクスをシミュレートする$k'$局所ハミルトニアンを探索する方法を提案する。

Local Hamiltonians, $H_k$, describe non-trivial $k$-body interactions in quantum many-body systems. Here, we address the dynamical simulatability of a $k$-local Hamiltonian by a simpler one, $H_{k'}$, with $k'<k$, under the realistic constraint that both Hamiltonians act on the same Hilbert space. When it comes to exact simulation, we build upon known methods to derive examples of $H_k$ and $H_{k'}$ that simulate the same physics. We also address the most realistic case of approximate simulation. There, we upper-bound the error up to which a Hamiltonian can simulate another one, regardless of their internal structure, and prove, by means of an example, that the accuracy of a $(k'=2)$-local Hamiltonian to simulate $H_{k}$ with $k>2$ increases with $k$. Finally, we propose a method to search for the $k'$-local Hamiltonian that simulates, with the highest possible precision, the short time dynamics of a given $H_k$ Hamiltonian.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# CacheGen: 高速言語モデルの実行のためのKVキャッシュ圧縮とストリーミング

CacheGen: KV Cache Compression and Streaming for Fast Language Model Serving ( http://arxiv.org/abs/2310.07240v5 )

ライセンス: Link先を確認
Yuhan Liu, Hanchen Li, Yihua Cheng, Siddhant Ray, Yuyang Huang, Qizheng Zhang, Kuntai Du, Jiayi Yao, Shan Lu, Ganesh Ananthanarayanan, Michael Maire, Henry Hoffmann, Ari Holtzman, Junchen Jiang, (参考訳) 大規模言語モデル(LLM)が複雑なタスクをこなすにつれて、その入力はドメイン知識やユーザ固有の情報を含む長いコンテキストで補完される。 しかし、長いコンテキストを使うことは、LLMが処理するまで何も生成できないため、応答性のあるLLMシステムにとって課題となる。 と。 CacheGenは、LLMシステムのための高速なコンテキストローディングモジュールである。 まず、CacheGenはKVキャッシュの分散プロパティを取り入れた独自のテンソルエンコーダを使用して、KVキャッシュをよりコンパクトなビットストリーム表現にエンコードする。 これにより、KVキャッシュを取得するための帯域幅の需要が減少する。 第二に、低コンテキストローディング遅延と高ジェネレーション品質を維持するために、CacheGenはストリーミング戦略を適用して、利用可能な帯域幅の変化に対処する。 利用可能な帯域幅が減少すると、CacheGenはコンテキストの一部の圧縮レベルを上げるか、KVキャッシュをオンザフライで再計算するかを選択する。 CacheGenは、さまざまなサイズの4つの人気のあるLLMと4つのデータセット(合計662のコンテキスト)でテストします。 KVキャッシュを再利用した最近のシステムと比較すると、CacheGenはKVキャッシュのサイズを3.5-4.3x削減し、フェッチと処理の合計遅延を3.2-3.7x削減する。

As large language models (LLMs) take on complex tasks, their inputs are supplemented with longer contexts that incorporate domain knowledge or user-specific information. Yet using long contexts poses a challenge for responsive LLM systems, as nothing can be generated until the whole context is processed by the LLM. . CacheGen is a fast context-loading module for LLM systems. First, CacheGen uses a custom tensor encoder, which embraces KV cache's distributional properties, to encode a KV cache into more compact bitstream representations with negligible encoding/decoding overhead. This reduces the bandwidth demand to fetch the KV cache. Second, to maintain low context-loading delay and high generation quality, CacheGen adapts the streaming strategies to cope with changes in available bandwidth. When available bandwidth drops, CacheGen may raise the compression level for a part of the context or choose to recompute its KV cache on the fly. We test CacheGen on four popular LLMs of various sizes and four datasets (662 contexts in total). Compared to the recent systems that reuse the KV cache, CacheGen reduces the KV cache size by 3.5-4.3x and the total delay in fetching and processing contexts by 3.2-3.7x while having negligible impact on the LLM response quality in accuracy or perplexity.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# Imitate: 先進的な階層型ビジョンランゲージ事前トレーニング

IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training ( http://arxiv.org/abs/2310.07355v2 )

ライセンス: Link先を確認
Che Liu, Sibo Cheng, Miaojing Shi, Anand Shah, Wenjia Bai, Rossella Arcucci, (参考訳) VLP(Vision-Language Pre-Training)の分野では、臨床報告と関連する医療画像の両方からテキストや画像の特徴を抽出するための重要な取り組みがなされている。 しかし、既存のほとんどの手法は、臨床報告の固有の階層構造を活用する機会を見落としていた可能性があり、これは一般的に説明内容の「フィニング」と決定的な観察のための「印象」に分けられる。 このリッチで構造化されたフォーマットを利用する代わりに、現在の医療用VLPアプローチは、統一されたエンティティまたは断片化されたトークンへのレポートを単純化することが多い。 本研究は,医用レポートから階層的視覚言語アライメントを付加した構造情報を学習するために,Imitateという新規な臨床事前指導型VLPフレームワークを提案する。 このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。 さらに, 比較学習におけるサンプル相関の定式化において臨床先行知識を考慮に入れた, クロスモーダル学習において, 新たな臨床インフォームド・コントラッシブ・ロスが導入された。 提案したモデルであるIMITATEは、6つの異なるデータセットでベースラインのVLPメソッドより優れており、5つの医用画像下流タスクにまたがっている。 総合的な実験結果は、医報の階層構造を視覚言語アライメントに組み込むことの利点を浮き彫りにした。

In the field of medical Vision-Language Pre-training (VLP), significant efforts have been devoted to deriving text and image features from both clinical reports and associated medical images. However, most existing methods may have overlooked the opportunity in leveraging the inherent hierarchical structure of clinical reports, which are generally split into `findings' for descriptive content and `impressions' for conclusive observation. Instead of utilizing this rich, structured format, current medical VLP approaches often simplify the report into either a unified entity or fragmented tokens. In this work, we propose a novel clinical prior guided VLP framework named IMITATE to learn the structure information from medical reports with hierarchical vision-language alignment. The framework derives multi-level visual features from the chest X-ray (CXR) images and separately aligns these features with the descriptive and the conclusive text encoded in the hierarchical medical report. Furthermore, a new clinical-informed contrastive loss is introduced for cross-modal learning, which accounts for clinical prior knowledge in formulating sample correlations in contrastive learning. The proposed model, IMITATE, outperforms baseline VLP methods across six different datasets, spanning five medical imaging downstream tasks. Comprehensive experimental results highlight the advantages of integrating the hierarchical structure of medical reports for vision-language alignment.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# Angular Momentum Flowは、何も持たない

Angular Momentum Flows without anything carrying it ( http://arxiv.org/abs/2310.07568v4 )

ライセンス: Link先を確認
Yakir Aharonov, Daniel Collins, Sandu Popescu, (参考訳) 保存された量の2つの領域間での移動は、一般的には、保存された量を運ぶ粒子の束が、ある領域から別の領域へ伝播する、かなり自明な過程であると仮定される。 しかしながら、ある領域から別の領域への角運動量のフローは、任意の粒子(または場)が存在するという、消えるほど小さな確率が存在する空間の領域にまたがる。 このことは、保存法がどのように機能するかに関する通常の見解を再考する必要があることを示している。

Transfer of conserved quantities between two remote regions is generally assumed to be a rather trivial process: a flux of particles carrying the conserved quantities propagates from one region to another. We however demonstrate a flow of angular momentum from one region to another across a region of space in which there is a vanishingly small probability of any particles (or fields) being present. This shows that the usual view of how conservation laws work needs to be revisited.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# コントラスト的嗜好学習:RLを使わずに人のフィードバックから学ぶ

Contrastive Preference Learning: Learning from Human Feedback without RL ( http://arxiv.org/abs/2310.13639v3 )

ライセンス: Link先を確認
Joey Hejna, Rafael Rafailov, Harshit Sikchi, Chelsea Finn, Scott Niekum, W. Bradley Knox, Dorsa Sadigh, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、モデルと人間の意図を整合させる一般的なパラダイムとして登場した。 典型的には、RLHFアルゴリズムは2つのフェーズで動作する: 第一に、人間の好みを使って報酬関数を学習し、第二に、学習された報酬を強化学習(RL)を介して最適化することでモデルを調整する。 このパラダイムは、人間の嗜好は報酬に応じて分配されると仮定するが、最近の研究は、ユーザーの最適なポリシーの下で後悔に従うことを示唆している。 したがって、フィードバックから報酬関数を学習することは、人間の嗜好の欠陥した仮定に基づくだけでなく、ポリシー勾配やRLフェーズのブートストラップに起因する、不安定な最適化課題にもつながります。 これらの最適化の課題により、現代のRLHF法は文脈的帯域設定(例えば、大きな言語モデルのように)や観測次元(例えば、状態に基づくロボット工学)に制限される。 我々は,人間の嗜好の後悔に基づくモデルを用いて,人間のフィードバックから行動の最適化を行うアルゴリズムを新たに導入することで,これらの制限を克服する。 最大エントロピーの原理を用いて、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL) を導出し、RLの必要性を回避する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。 これにより、CPLは従来の方法よりも単純でありながら、高次元およびシーケンシャルなRLHF問題にエレガントにスケールすることができる。

Reinforcement Learning from Human Feedback (RLHF) has emerged as a popular paradigm for aligning models with human intent. Typically RLHF algorithms operate in two phases: first, use human preferences to learn a reward function and second, align the model by optimizing the learned reward via reinforcement learning (RL). This paradigm assumes that human preferences are distributed according to reward, but recent work suggests that they instead follow the regret under the user's optimal policy. Thus, learning a reward function from feedback is not only based on a flawed assumption of human preference, but also leads to unwieldy optimization challenges that stem from policy gradients or bootstrapping in the RL phase. Because of these optimization challenges, contemporary RLHF methods restrict themselves to contextual bandit settings (e.g., as in large language models) or limit observation dimensionality (e.g., state-based robotics). We overcome these limitations by introducing a new family of algorithms for optimizing behavior from human feedback using the regret-based model of human preferences. Using the principle of maximum entropy, we derive Contrastive Preference Learning (CPL), an algorithm for learning optimal policies from preferences without learning reward functions, circumventing the need for RL. CPL is fully off-policy, uses only a simple contrastive objective, and can be applied to arbitrary MDPs. This enables CPL to elegantly scale to high-dimensional and sequential RLHF problems while being simpler than prior methods.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# Mysticeti: 未確認DAGによるレイテンシ限界の緩和

Mysticeti: Reaching the Limits of Latency with Uncertified DAGs ( http://arxiv.org/abs/2310.14821v3 )

ライセンス: Link先を確認
Kushal Babel, Andrey Chursin, George Danezis, Anastasios Kichidis, Lefteris Kokoris-Kogias, Arun Koshy, Alberto Sonnino, Mingwei Tian, (参考訳) DAGベースの最初のByzantineコンセンサスプロトコルであるMysticeti-Cを導入する。 Mysticeti-CはDAG上に構築されているため、高い資源効率と検閲耐性も達成している。 Mysticeti-Cは、DAGブロックの明示的な認証を避け、すべてのブロックを遅延なくコミットできるように新しいコミットルールを提案し、安定した状態とクラッシュ時の最適なレイテンシを実現することで、このレイテンシの改善を実現している。 Mysticeti-C を Mysticeti-FPC に拡張します。 以前の高速コミットパスプロトコルとは異なり、Mysticeti-FPCは、高速パストランザクションをDAGに織り込むことで、署名とメッセージの数を最小化する。 これによりリソースが解放され、結果としてパフォーマンスが向上する。 我々は、ビザンチンの文脈におけるプロトコルの安全性と活力を証明する。 我々はMysticetiを評価し、最新のコンセンサスと高速パスプロトコルを比較して、その低レイテンシとリソース効率を実証し、クラッシュ時のより優雅な劣化を示す。 Mysticetiは、100k TPS以上の最先端スループットを維持しながら、コンセンサスコミットのために0.5秒のWANレイテンシを実現する最初のビザンティンコンセンサスプロトコルである。 最後に、Mysticeti-Cをコンセンサスプロトコルとして主要なブロックチェーンに統合し、4倍のレイテンシ低減を実現したことを報告します。

We introduce Mysticeti-C the first DAG-based Byzantine consensus protocol to achieve the lower bounds of latency of 3 message rounds. Since Mysticeti-C is built over DAGs it also achieves high resource efficiency and censorship resistance. Mysticeti-C achieves this latency improvement by avoiding explicit certification of the DAG blocks and by proposing a novel commit rule such that every block can be committed without delays, resulting in optimal latency in the steady state and under crash failures. We further extend Mysticeti-C to Mysticeti-FPC, which incorporates a fast commit path that achieves even lower latency for transferring assets. Unlike prior fast commit path protocols, Mysticeti-FPC minimizes the number of signatures and messages by weaving the fast path transactions into the DAG. This frees up resources, which subsequently result in better performance. We prove the safety and liveness of the protocols in a Byzantine context. We evaluate Mysticeti and compare it with state-of-the-art consensus and fast path protocols to demonstrate its low latency and resource efficiency, as well as its more graceful degradation under crash failures. Mysticeti is the first Byzantine consensus protocol to achieve WAN latency of 0.5s for consensus commit while simultaneously maintaining state-of-the-art throughput of over 100k TPS. Finally, we report on integrating Mysticeti-C as the consensus protocol into a major blockchain, resulting in 4x latency reduction.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# 知識グラフによる説明可能なレコメンデーションのための忠実パス言語モデリング

Faithful Path Language Modeling for Explainable Recommendation over Knowledge Graph ( http://arxiv.org/abs/2310.16452v3 )

ライセンス: Link先を確認
Giacomo Balloccu, Ludovico Boratto, Christian Cancedda, Gianni Fenu, Mirko Marras, (参考訳) 推薦システムにおける経路推論と言語モデリングの統合は、説明可能性を高めるという約束を示しているが、提供された説明の信頼性に苦慮することが多い。 従来のモデルは、アーキテクチャを変更してエンティティとリレーションを交互に生成する — 例えば、モデルのそれぞれに別々のヘッドを使用する — 実際の知識グラフ(KG)接続を反映したパスの信頼性を保証することはない。 このミスアライメントは、破損したパスの生成によるユーザの不信につながる可能性がある。 そこで我々はPEARLM (Path-based Explainable-Accurate Recommender based on Language Modelling)を導入する。 このメカニズムは、基盤となるモデルアーキテクチャに依存せず、復号レベルで有効なKG接続に固執することで、破損した経路のゼロ発生を保証する。 直接トークン埋め込み学習をKGパスから統合することにより、PEARLMは妥当かつ検証可能な説明の生成を保証するだけでなく、推奨精度を高く向上させる。 本手法の有効性を厳密な経験的評価により検証し,説明経路の整合性を定量化する指標を新たに提案した。 提案手法は従来の手法よりも大幅に改善され,不正確な経路の発生を効果的に排除し,説明可能なレコメンデータシステムにおいて最先端の手法を推し進める。

The integration of path reasoning with language modeling in recommender systems has shown promise for enhancing explainability but often struggles with the authenticity of the explanations provided. Traditional models modify their architecture to produce entities and relations alternately--for example, employing separate heads for each in the model--which does not ensure the authenticity of paths reflective of actual Knowledge Graph (KG) connections. This misalignment can lead to user distrust due to the generation of corrupted paths. Addressing this, we introduce PEARLM (Path-based Explainable-Accurate Recommender based on Language Modelling), which innovates with a Knowledge Graph Constraint Decoding (KGCD) mechanism. This mechanism ensures zero incidence of corrupted paths by enforcing adherence to valid KG connections at the decoding level, agnostic of the underlying model architecture. By integrating direct token embedding learning from KG paths, PEARLM not only guarantees the generation of plausible and verifiable explanations but also highly enhances recommendation accuracy. We validate the effectiveness of our approach through a rigorous empirical assessment, employing a newly proposed metric that quantifies the integrity of explanation paths. Our results demonstrate a significant improvement over existing methods, effectively eliminating the generation of inaccurate paths and advancing the state-of-the-art in explainable recommender systems.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# ワッサーシュタイン空間における近似理論, 計算, 深層学習

Approximation Theory, Computing, and Deep Learning on the Wasserstein Space ( http://arxiv.org/abs/2310.19548v3 )

ライセンス: Link先を確認
Massimo Fornasier, Pascal Heid, Giacomo Enrico Sodini, (参考訳) 有限標本からの無限次元空間における函数の近似の課題は、広く有意であると見なされている。 本研究では,確率空間上で定義されるソボレフ-滑らか関数の数値近似の難解問題を探索する。 我々の特に焦点はワッサーシュタイン距離関数(英語版)(Wasserstein distance function)に集中しており、これは関連する例である。 効率的なポイントワイズ評価に焦点をあてた既存の文献とは対照的に、我々は3つの機械学習に基づくアプローチを採用することにより、機能的近似を定義する新しいコースをグラフ化した。 1. 有限数の最適輸送問題の解法と対応するワッサーシュタインポテンシャルの計算。 2. ワッサーシュタイン・ソボレフ空間におけるTikhonov正則化による経験的リスク最小化の利用 3. ティホノフ汎函数のオイラー・ラグランジュ方程式の弱形式を特徴づけるサドル点定式化による問題への対処。 理論的貢献として、これらの解のそれぞれに対する一般化誤差の明示的かつ定量的な境界を与える。 証明では、計量ソボレフ空間の理論を利用し、最適な輸送法、変分計算法、大きな偏差境界法と組み合わせる。 数値的な実装では,ニューラルネットワークをベース関数として適切に設計し,基礎関数として機能する。 これらのネットワークは様々な手法を用いて訓練を行っている。 このアプローチにより、トレーニング後に迅速に評価できる近似関数を得ることができる。 その結果, コンストラクティブ・ソリューションは評価速度を等精度で向上し, 最先端の手法を数桁上回る結果となった。

The challenge of approximating functions in infinite-dimensional spaces from finite samples is widely regarded as formidable. In this study, we delve into the challenging problem of the numerical approximation of Sobolev-smooth functions defined on probability spaces. Our particular focus centers on the Wasserstein distance function, which serves as a relevant example. In contrast to the existing body of literature focused on approximating efficiently pointwise evaluations, we chart a new course to define functional approximants by adopting three machine learning-based approaches: 1. Solving a finite number of optimal transport problems and computing the corresponding Wasserstein potentials. 2. Employing empirical risk minimization with Tikhonov regularization in Wasserstein Sobolev spaces. 3. Addressing the problem through the saddle point formulation that characterizes the weak form of the Tikhonov functional's Euler-Lagrange equation. As a theoretical contribution, we furnish explicit and quantitative bounds on generalization errors for each of these solutions. In the proofs, we leverage the theory of metric Sobolev spaces and we combine it with techniques of optimal transport, variational calculus, and large deviation bounds. In our numerical implementation, we harness appropriately designed neural networks to serve as basis functions. These networks undergo training using diverse methodologies. This approach allows us to obtain approximating functions that can be rapidly evaluated after training. Consequently, our constructive solutions significantly enhance at equal accuracy the evaluation speed, surpassing that of state-of-the-art methods by several orders of magnitude.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# 歩行者検出における言語依存型外見要素と視覚的手がかりの統合

Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection ( http://arxiv.org/abs/2311.01025v3 )

ライセンス: Link先を確認
Sungjune Park, Hyunjun Kim, Yong Man Ro, (参考訳) 大規模言語モデル(LLM)は、インスタンスの外観に関する知識に関する文脈的および意味的な情報を理解する能力を示している。 本稿では,LLMの強みを利用した視覚モデル(以下,歩行者検出)にその知識を応用するための新しい手法を提案する。 歩行者検出は、安全(例えば、インテリジェントな運転システム)に直接関係する重要なタスクの1つと考えられているが、様々な場面で外観やポーズが異なるため、困難である。 そこで我々は,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。 この目的のために,歩行者や他の事例の様々な外観を記述した多数の物語を含む記述コーパスを確立する。 LLMを通してそれらを供給することにより、外観変化の表現を含む外観知識集合を抽出する。 その後、下流歩行者検知タスクに関連する代表的外観知識である外観要素を得るためのタスクプロンプト処理を行う。 得られた知識要素は、様々な検出フレームワークに適用可能であり、言語由来の外観要素と視覚的手がかりを検出器内に組み込むことで、豊富な外観情報を提供できる。 各種歩行者検知器を用いた総合的な実験を通じて,本手法の適応性と有効性を検証するとともに,2つの公共歩行者検出ベンチマーク(CrowdHumanとWiderPedestrian)における最先端検出性能を実現する。

Large language models (LLMs) have shown their capabilities in understanding contextual and semantic information regarding knowledge of instance appearances. In this paper, we introduce a novel approach to utilize the strengths of LLMs in understanding contextual appearance variations and to leverage this knowledge into a vision model (here, pedestrian detection). While pedestrian detection is considered one of the crucial tasks directly related to our safety (e.g., intelligent driving systems), it is challenging because of varying appearances and poses in diverse scenes. Therefore, we propose to formulate language-derived appearance elements and incorporate them with visual cues in pedestrian detection. To this end, we establish a description corpus that includes numerous narratives describing various appearances of pedestrians and other instances. By feeding them through an LLM, we extract appearance knowledge sets that contain the representations of appearance variations. Subsequently, we perform a task-prompting process to obtain appearance elements which are guided representative appearance knowledge relevant to a downstream pedestrian detection task. The obtained knowledge elements are adaptable to various detection frameworks, so that we can provide plentiful appearance information by integrating the language-derived appearance elements with visual cues within a detector. Through comprehensive experiments with various pedestrian detectors, we verify the adaptability and effectiveness of our method showing noticeable performance gains and achieving state-of-the-art detection performance on two public pedestrian detection benchmarks (i.e., CrowdHuman and WiderPedestrian).
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# SeaTurtleID2022: 信頼性の高いウミガメ再同定のための長期データセット

SeaTurtleID2022: A long-span dataset for reliable sea turtle re-identification ( http://arxiv.org/abs/2311.05524v2 )

ライセンス: Link先を確認
Lukáš Adam, Vojtěch Čermák, Kostas Papafitsoros, Lukáš Picek, (参考訳) 本稿では,野生で撮影されたシータートルID2022(https://www.kaggle.com/datasets/wildlifedatasets/seaturtleid2022)を用いた,最初の大規模・長期データセットを紹介する。 このデータセットには、13年以内に収集された438個体の8729枚の写真が含まれており、動物の再同定のための最長のデータセットとなっている。 すべての写真には、例えば、アイデンティティ、出会うタイムスタンプ、身体部分のセグメンテーションマスクなど、さまざまなアノテーションが含まれている。 標準的な「ランダム」分割の代わりに、データセットは2つの現実的で生態学的に動機づけられた分割を可能にします。 一 異なる日毎の訓練、検証及び試験データを付した時間対応クローズセット (ii)テストおよび検証セットにおいて、新しい未知の個人とタイムアウェアのオープンセット。 乱数分割が性能過大評価につながるため、再同定手法のベンチマークには時間認識分割が不可欠であることを示す。 さらに、各種本体部に対するベースラインインスタンスセグメンテーション及び再識別性能を提供する。 最後に,ウミガメ再同定のためのエンドツーエンドシステムを提案し,評価した。 ヘッドインスタンスセグメンテーションのためのHybrid Task Cascadeに基づくシステムとArcFaceで訓練した特徴抽出器は86.8%の精度を実現した。

This paper introduces the first public large-scale, long-span dataset with sea turtle photographs captured in the wild -- SeaTurtleID2022 (https://www.kaggle.com/datasets/wildlifedatasets/seaturtleid2022). The dataset contains 8729 photographs of 438 unique individuals collected within 13 years, making it the longest-spanned dataset for animal re-identification. All photographs include various annotations, e.g., identity, encounter timestamp, and body parts segmentation masks. Instead of standard "random" splits, the dataset allows for two realistic and ecologically motivated splits: (i) a time-aware closed-set with training, validation, and test data from different days/years, and (ii) a time-aware open-set with new unknown individuals in test and validation sets. We show that time-aware splits are essential for benchmarking re-identification methods, as random splits lead to performance overestimation. Furthermore, a baseline instance segmentation and re-identification performance over various body parts is provided. Finally, an end-to-end system for sea turtle re-identification is proposed and evaluated. The proposed system based on Hybrid Task Cascade for head instance segmentation and ArcFace-trained feature-extractor achieved an accuracy of 86.8%.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# 遠心ファンの故障診断における高密度核融合注意ネットワークの適用

Application of a Dense Fusion Attention Network in Fault Diagnosis of Centrifugal Fan ( http://arxiv.org/abs/2311.07614v3 )

ライセンス: Link先を確認
Ruijun Wang, Yuan Liu, Zhixia Fan, Xiaogang Xu, Huijie Wang, (参考訳) 深層学習認識モデルは, 回転機械の状態監視に広く用いられている。 しかし,モデルの構造と機能と診断プロセスとの対応を理解することは依然として困難である。 そこで本稿では,従来の密集カスケード操作ではなく,分散注意モジュールを密接な接続に埋め込む方法について論じる。 空間とチャネルの影響を分離するだけでなく、断層特性適応化特徴量にも影響し、融合注意関数を形成する。 提案した高密度融合は,ネットワーク診断プロセスの可視化に焦点を当て,モデル診断の解釈可能性を高める。 障害の特徴を抽出し、ノイズに抵抗する能力を高めるために、異なる機能を継続的に効果的に統合する方法が答えられる。 遠心ファンフォールトデータは、このネットワークを検証するために使用される。 実験の結果,ネットワークの診断性能は,他の先進的な故障診断モデルよりも高いことがわかった。

Although the deep learning recognition model has been widely used in the condition monitoring of rotating machinery. However, it is still a challenge to understand the correspondence between the structure and function of the model and the diagnosis process. Therefore, this paper discusses embedding distributed attention modules into dense connections instead of traditional dense cascading operations. It not only decouples the influence of space and channel on fault feature adaptive recalibration feature weights, but also forms a fusion attention function. The proposed dense fusion focuses on the visualization of the network diagnosis process, which increases the interpretability of model diagnosis. How to continuously and effectively integrate different functions to enhance the ability to extract fault features and the ability to resist noise is answered. Centrifugal fan fault data is used to verify this network. Experimental results show that the network has stronger diagnostic performance than other advanced fault diagnostic models.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-30
# アフリカの言語における大規模言語モデルはどの程度優れているか?

How good are Large Language Models on African Languages? ( http://arxiv.org/abs/2311.07978v2 )

ライセンス: Link先を確認
Jessica Ojo, Kelechi Ogueji, Pontus Stenetorp, David Ifeoluwa Adelani, (参考訳) 近年の自然言語処理の進歩は,大規模言語モデル(LLM)の普及につながっている。 これらのモデルは、トレーニングされていないタスクや言語であっても、コンテキスト内学習を使用して、優れたパフォーマンスが得られることが示されている。 しかしながら、アフリカの言語での彼らのパフォーマンスは、高リソース言語と比較して、ほとんど過小評価されていない。 6つの課題(トピック分類, 感情分類, 機械翻訳, 要約, 質問応答, 名前付きエンティティ認識)について, 60言語にまたがる4つの人気言語モデル(mT0, Aya, LLaMa 2, GPT-4)について, 異なる言語族と地理的領域にまたがって分析を行った。 以上の結果から,全てのLLMはアフリカの言語では性能が低いことが示唆され,ほとんどのタスクでは高リソース言語(英語など)に比べて性能の差が大きいことが示唆された。 GPT-4は, 機械翻訳や要約などの生成タスクにおいて, 平均的, 優れた性能を示すが, 性能は著しく低下している。 驚いたことに,mT0は言語間QAにおいて,最先端の教師付きモデル(mT5)やGPT-4よりも優れた性能を示した。 同様に、最近のAyaモデルは、mT0より優れているトピック分類を除いて、ほぼ全てのタスクにおいてmT0に匹敵する結果が得られる。 全体として、LLaMa 2は、英語とコード中心(約98%)の事前トレーニングコーパスのため、最悪のパフォーマンスを示した。 このギャップを埋めるために追加の努力が必要であることを強調し、アフリカ語のパフォーマンスが現在のLLMのハードルであり続けていることを確認した。

Recent advancements in natural language processing have led to the proliferation of large language models (LLMs). These models have been shown to yield good performance, using in-context learning, even on tasks and languages they are not trained on. However, their performance on African languages is largely understudied relative to high-resource languages. We present an analysis of four popular large language models (mT0, Aya, LLaMa 2, and GPT-4) on six tasks (topic classification, sentiment classification, machine translation, summarization, question answering, and named entity recognition) across 60 African languages, spanning different language families and geographical regions. Our results suggest that all LLMs produce lower performance for African languages, and there is a large gap in performance compared to high-resource languages (such as English) for most tasks. We find that GPT-4 has an average to good performance on classification tasks, yet its performance on generative tasks such as machine translation and summarization is significantly lacking. Surprisingly, we find that mT0 had the best overall performance for cross-lingual QA, better than the state-of-the-art supervised model (i.e. fine-tuned mT5) and GPT-4 on African languages. Similarly, we find the recent Aya model to have comparable result to mT0 in almost all tasks except for topic classification where it outperform mT0. Overall, LLaMa 2 showed the worst performance, which we believe is due to its English and code-centric~(around 98%) pre-training corpus. Our findings confirms that performance on African languages continues to remain a hurdle for the current LLMs, underscoring the need for additional efforts to close this gap.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# 駆動散逸量子系における自己組織化時間結晶

Self-Organized Time Crystal in Driven-Dissipative Quantum System ( http://arxiv.org/abs/2311.08899v2 )

ライセンス: Link先を確認
Ya-Xin Xiang, Qun-Li Lei, Zhengyang Bai, Yu-Qiang Ma, (参考訳) 連続時間結晶(CTC)は、時間変換対称性を破る持続振動によって特徴づけられる。 ノーゴー定理による平衡CTCの排除以来、このような動的位相の出現は様々な駆動散逸量子プラットフォームで観測されてきた。 現在のCTCの理解は主に平均場(MF)理論に基づいており、全ての結合を保護することなく、ノイズの多い空間的に拡張されたシステムに長距離時間結晶秩序が存在するかどうかという問題に対処できない。 本稿では,自己組織的不安定性(SOB)を通じて量子接触モデルで実現された新しいタイプのCTCを提案する。 エキゾチックCTCは、第1次吸収相転移(APT)によって誘導される集合散逸と、非コヒーレントポンプによって提供される緩やかな定速駆動との相互作用に由来する。 固有量子ゆらぎの作用の下での有限次元におけるそのような振動位相の安定性は、関数的再正規化群法と数値シミュレーションにより精査される。 量子同期の端で発生したCTC相は、システムサイズと異なるコヒーレンス時間で固有の周期と振幅を示し、バウンダリ時間結晶(BTC)を構成する。 我々の結果は、強く相互作用するオープンシステムにおいて、自己保護型CTCへの確かな経路として機能する。

Continuous time crystals (CTCs) are characterized by sustained oscillations that break the time translation symmetry. Since the ruling out of equilibrium CTCs by no-go theorems, the emergence of such dynamical phases has been observed in various driven-dissipative quantum platforms. The current understanding of CTCs is mainly based on mean-field (MF) theories, which fail to address the problem of whether the long-range time crystalline order exists in noisy, spatially extended systems without the protection of all-to-all couplings. Here, we propose a new kind of CTC realized in a quantum contact model through self-organized bistability (SOB). The exotic CTCs stem from the interplay between collective dissipation induced by the first-order absorbing phase transitions (APTs) and slow constant driving provided by an incoherent pump. The stability of such oscillatory phases in finite dimensions under the action of intrinsic quantum fluctuations is scrutinized by the functional renormalization group method and numerical simulations. Occurring at the edge of quantum synchronization, the CTC phase exhibits an inherent period and amplitude with a coherence time diverging with system size, thus also constituting a boundary time crystal (BTC). Our results serve as a solid route towards self-protected CTCs in strongly interacting open systems.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# 問合せ拡張は強エンコーダランクの一般化を改善するか?

Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers? ( http://arxiv.org/abs/2311.09175v2 )

ライセンス: Link先を確認
Minghan Li, Honglei Zhuang, Kai Hui, Zhen Qin, Jimmy Lin, Rolf Jagerman, Xuanhui Wang, Michael Bendersky, (参考訳) クエリ拡張は、第1段階の検索者による検索結果の改善に広く利用されているが、第2段階のクロスエンコーダローダに対する影響は、まだ未調査である。 Weller et al [44] の最近の研究は、現在の拡張技術は DPR や BM25 のようなより弱いモデルに利益をもたらすが、MonoT5 のようなより強いランク付けには害を与えることを示している。 本稿では、この結論を再検討し、以下の疑問を提起する。 クエリ拡張は、強力なクロスエンコーダローダの一般化を改善することができるか? この問題に対処するために、まず、最先端のクロスエンコーダローダに一般的なクエリ拡張手法を適用し、劣化したゼロショット性能を検証する。 実験では,高品質なキーワード生成と最小破壊的なクエリ修正という,クロスエンコーダの2つの重要なステップを同定する。 本稿では,拡張クエリのランク付け結果を融合により高速化し,エンジニアリングの迅速化と集約を行うことにより,強力なニューラルネットワークローカの一般化を向上できることを示す。 具体的には、まず、推論チェーンを通じてキーワードを生成するために、命令追従言語モデルを呼び出す。 自己整合性と相互ランク重み付けを活用することで,拡張クエリのランク付け結果を動的に組み合わせる。 BEIR と TREC Deep Learning 2019/2020 の実験では,MonoT5 と RankT5 の nDCG@10 スコアが改善された。

Query expansion has been widely used to improve the search results of first-stage retrievers, yet its influence on second-stage, cross-encoder rankers remains under-explored. A recent work of Weller et al. [44] shows that current expansion techniques benefit weaker models such as DPR and BM25 but harm stronger rankers such as MonoT5. In this paper, we re-examine this conclusion and raise the following question: Can query expansion improve generalization of strong cross-encoder rankers? To answer this question, we first apply popular query expansion methods to state-of-the-art cross-encoder rankers and verify the deteriorated zero-shot performance. We identify two vital steps for cross-encoders in the experiment: high-quality keyword generation and minimal-disruptive query modification. We show that it is possible to improve the generalization of a strong neural ranker, by prompt engineering and aggregating the ranking results of each expanded query via fusion. Specifically, we first call an instruction-following language model to generate keywords through a reasoning chain. Leveraging self-consistency and reciprocal rank weighting, we further combine the ranking results of each expanded query dynamically. Experiments on BEIR and TREC Deep Learning 2019/2020 show that the nDCG@10 scores of both MonoT5 and RankT5 following these steps are improved, which points out a direction for applying query expansion to strong cross-encoder rankers.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# オーバーソーシングおよびキュービット操作によるプログラム可能な多目的フォトニック量子メモリの実現

Realization of a programmable multi-purpose photonic quantum memory with over-thousand qubit manipulations ( http://arxiv.org/abs/2311.10292v3 )

ライセンス: Link先を確認
Sheng Zhang, Jixuan Shi, Zhaibin Cui, Ye Wang, Yukai Wu, Luming Duan, Yunfei Pu, (参考訳) 量子ネットワークは、分散量子コンピューティング、長距離量子通信、前例のない性能を持つネットワークベースの量子センシングなどの様々なアプリケーションを可能にする。 量子ネットワークにおいて最も重要なビルディングブロックの1つは、通信チャネルと局所関数ユニットの間のインターフェースとして機能するフォトニック量子メモリである。 空飛ぶ量子ビットの大規模なストリームを処理し、量子ネットワークにおける複数のコア関数の要求を満たすプログラム可能な量子メモリは、まだ実現されていない。 ここでは、空間的に分離された原子アンサンブル144個の光量子ビットを同時に72個の光量子ビットを格納し、ランダムアクセス方式で最大1000個の書き込みまたは読み取り操作をサポートする高性能量子メモリについて述べる。 プログラマビリティが組み込まれているため、この量子メモリはいくつかの機能にオンデマンドで適応することができる。 例えば、量子キュー、スタック、バッファは古典的な情報処理のデバイスとよく似ている。 さらに、量子リピータの実現と量子ネットワークの効率的なルーティングに欠かせない、確率的到着時間とメモリ経由の任意の解放順序を持つ4対のフォトニックパルスの同期と再シャッフルを実証する。 この多目的プログラマブル量子メモリの実現は、将来の大規模フルファンクショナル量子ネットワークのための鍵となるビルディングブロックを構成する。

Quantum networks can enable various applications such as distributed quantum computing, long-distance quantum communication, and network-based quantum sensing with unprecedented performances. One of the most important building blocks for a quantum network is a photonic quantum memory which serves as the interface between the communication channel and the local functional unit. A programmable quantum memory which can process a large stream of flying qubits and fulfill the requirements of multiple core functions in a quantum network is still to-be-realized. Here we report a high-performance quantum memory which can simultaneously store 72 optical qubits carried by 144 spatially separated atomic ensembles and support up to a thousand consecutive write or read operations in a random access way, two orders of magnitude larger than the previous record. Due to the built-in programmability, this quantum memory can be adapted on-demand for several functions. As example applications, we realize quantum queue, stack, and buffer which closely resemble the counterpart devices for classical information processing. We further demonstrate the synchronization and reshuffle of 4 entangled pairs of photonic pulses with probabilistic arrival time and arbitrary release order via the memory, which is an essential requirement for the realization of quantum repeaters and efficient routing in quantum networks. Realization of this multi-purpose programmable quantum memory thus constitutes a key enabling building block for future large-scale fully-functional quantum networks.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# ガウス滑らか化とガウス微分の離散近似

Discrete approximations of Gaussian smoothing and Gaussian derivatives ( http://arxiv.org/abs/2311.11317v6 )

ライセンス: Link先を確認
Tony Lindeberg, (参考訳) 本稿では,離散データに適用するためのスケール空間理論におけるガウススムージングとガウス微分計算の近似問題に関する詳細な処理法を開発する。 連続的および離散的スケール空間理論の以前の公理的処理と密接な関係で、これらのスケール空間の操作を明示的な離散的畳み込みの観点から区別する3つの主要な方法を考える。 (i)ガウス核とガウス微分核をサンプリングする。 (ii)各画素支持領域上にガウス核とガウス微分核を局所的に統合し、 3) ガウス核の離散的類似点のスケール空間解析を基礎とし, 空間的スムーズな画像データに小サポート中央差分演算子を適用することにより微分近似を計算する。 本研究では,これら3つの主要な離散化手法の特性を理論的・実験的に検討し,その性能を定量的に評価する。 その結果、サンプル化されたガウス核と導関数、および統合されたガウス核と導関数は、非常に微細なスケールで非常に低性能であることがわかった。 非常に微細なスケールでは、ガウス核の離散的な類似とそれに対応する離散微分近似が大幅に向上する。 一方、サンプル化されたガウス核とサンプル化されたガウス微分は、スケールパラメータが十分に大きい場合、グリッド間隔の単位においてスケールパラメータが約1より大きい場合、対応する連続結果の数値的に非常に良い近似をもたらす。

This paper develops an in-depth treatment concerning the problem of approximating the Gaussian smoothing and Gaussian derivative computations in scale-space theory for application on discrete data. With close connections to previous axiomatic treatments of continuous and discrete scale-space theory, we consider three main ways discretizing these scale-space operations in terms of explicit discrete convolutions, based on either (i) sampling the Gaussian kernels and the Gaussian derivative kernels, (ii) locally integrating the Gaussian kernels and the Gaussian derivative kernels over each pixel support region and (iii) basing the scale-space analysis on the discrete analogue of the Gaussian kernel, and then computing derivative approximations by applying small-support central difference operators to the spatially smoothed image data. We study the properties of these three main discretization methods both theoretically and experimentally, and characterize their performance by quantitative measures, including the results they give rise to with respect to the task of scale selection, investigated for four different use cases, and with emphasis on the behaviour at fine scales. The results show that the sampled Gaussian kernels and derivatives as well as the integrated Gaussian kernels and derivatives perform very poorly at very fine scales. At very fine scales, the discrete analogue of the Gaussian kernel with its corresponding discrete derivative approximations performs substantially better. The sampled Gaussian kernel and the sampled Gaussian derivatives do, on the other hand, lead to numerically very good approximations of the corresponding continuous results, when the scale parameter is sufficiently large, in the experiments presented in the paper, when the scale parameter is greater than a value of about 1, in units of the grid spacing.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# 非滑らかな非凸有限サム最適化のための新しいランダムリシャッフル法

A New Random Reshuffling Method for Nonsmooth Nonconvex Finite-sum Optimization ( http://arxiv.org/abs/2312.01047v2 )

ライセンス: Link先を確認
Junwen Qiu, Xiao Li, Andre Milzarek, (参考訳) ランダムリシャッフル技術は、ニューラルネットワークのトレーニングなど、大規模アプリケーションで広く使われている。 ランダムリシャッフル型手法の収束と加速効果はスムーズな環境ではかなりよく理解されているが、非滑らかなケースではより少ない研究が利用できるように思われる。 本研究では,非滑らかな非凸有限サム問題に対する正規写像に基づく近位ランダムリシャッフル法 (norm-PRR) を設計する。 ノルムPRRは反復複雑性を$O(n^{-1/3}T^{-2/3})$で表し、$n$は成分関数の数を$f(\cdot,i)$で表し、$T$は反復の総数を数える。 これにより、このクラスの問題の現在知られている複雑性境界を$n^{-1/3}$の係数で改善する。 さらに、ノルムPRRは(球状)ポリアック・ロジャシエヴィチ条件と補間条件の下で線型収束することが証明される。 我々は、これらの非漸近的結果をさらに補完し、ノルムPRRの漸近的特性を詳細に分析する。 具体的には、(局所的な)クルディカ・ロジャシエヴィチの不等式の下で、ノルムPRRによって生成されるイテレート全体の列は、単一の定常点に収束することが示されている。 さらに、スムーズで強い凸条件で一致できる最後の反復収束率を導出する。 最後に,非凸分類タスクにおける数値実験を行い,提案手法の効率性を示す。

Random reshuffling techniques are prevalent in large-scale applications, such as training neural networks. While the convergence and acceleration effects of random reshuffling-type methods are fairly well understood in the smooth setting, much less studies seem available in the nonsmooth case. In this work, we design a new normal map-based proximal random reshuffling (norm-PRR) method for nonsmooth nonconvex finite-sum problems. We show that norm-PRR achieves the iteration complexity $O(n^{-1/3}T^{-2/3})$ where $n$ denotes the number of component functions $f(\cdot,i)$ and $T$ counts the total number of iterations. This improves the currently known complexity bounds for this class of problems by a factor of $n^{-1/3}$. In addition, we prove that norm-PRR converges linearly under the (global) Polyak-Lojasiewicz condition and in the interpolation setting. We further complement these non-asymptotic results and provide an in-depth analysis of the asymptotic properties of norm-PRR. Specifically, under the (local) Kurdyka-Lojasiewicz inequality, the whole sequence of iterates generated by norm-PRR is shown to converge to a single stationary point. Moreover, we derive last iterate convergence rates that can match those in the smooth, strongly convex setting. Finally, numerical experiments are performed on nonconvex classification tasks to illustrate the efficiency of the proposed approach.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# 最適量子鍵分配ネットワーク:容量対セキュリティ

Optimal quantum key distribution networks: capacitance versus security ( http://arxiv.org/abs/2312.04221v2 )

ライセンス: Link先を確認
Lorenzo Cirigliano, Valentina Brosco, Claudio Castellano, Claudio Conti, Laura Pilozzi, (参考訳) 量子通信ネットワークの任意の点に配置されたユーザ間の量子通信の速度とセキュリティは、ネットワークの構造、その拡張、および通信チャネルの性質に依存する。 本研究では,古典的ネットワークアプローチと量子情報理論を融合した信頼性リレーネットワークの最適化戦略を提案する。 具体的には、量子通信効率関数を適切に定義することにより、セキュリティと量子通信速度のバランスをとることにより、ネットワークを介して最適な量子通信接続を識別する。 最適化されたネットワークは、最大量子通信効率接続のネットワークとして構築され、その性能は、平均特性のスケーリングをノード数とネットワーク空間拡張の関数として研究することで評価される。

The rate and security of quantum communications between users placed at arbitrary points of a quantum communication network depend on the structure of the network, on its extension and on the nature of the communication channels. In this work we propose a strategy for the optimization of trusted-relays based networks that intertwines classical network approaches and quantum information theory. Specifically, by suitably defining a quantum communication efficiency functional, we identify the optimal quantum communication connections through the network by balancing security and the quantum communication rate. The optimized network is then constructed as the network of the maximal quantum communication efficiency connections and its performance is evaluated by studying the scaling of average properties as functions of the number of nodes and of the network spatial extension.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# SimAC: 拡散モデルのテキスト対画像合成に対する顔のプライバシ保護のための簡易なアンチカスタマイズ手法

SimAC: A Simple Anti-Customization Method for Protecting Face Privacy against Text-to-Image Synthesis of Diffusion Models ( http://arxiv.org/abs/2312.07865v2 )

ライセンス: Link先を確認
Feifei Wang, Zhentao Tan, Tianyi Wei, Yue Wu, Qidong Huang, (参考訳) 視覚コンテンツ作成における拡散に基づくカスタマイズ手法の成功にもかかわらず、プライバシーと政治の両面から、このような技術に対する懸念が高まっている。 この問題に対処するために、敵の攻撃に主に根ざした、いくつかのアンチ・カストマイズ法が近年提案されている。 残念なことに、これらの手法の多くは、元のトレーニング損失を逆向きに最大化し、拡散モデルに固有の微妙な内部特性を無視し、また、いくつかの拡散時間ステップにおいて非効率な最適化に至るような単純な設計を採用しており、本稿では、これらの特性を包括的に探索することにより、このギャップを埋め、現在のアンチ・カストマイゼーション・アプローチの性能を高めることに努めている。 特性の2つの側面について検討する。 1) 画像の周波数領域における時間ステップ選択とモデル知覚の関係について検討し, より低い時間ステップが対向雑音にさらに寄与することを示した。 これにより,既存のアンチ・カストマイゼーション手法とシームレスに統合された最適時間ステップの適応的欲求探索を提案することができる。 2) 顔認証による評価実験により, ユーザのプライバシーと著作権を保護し, アイデンティティの破壊を著しく増大させることが実証された。 私たちのコードは、https://github.com/somuchtome/SimAC.comで利用可能です。

Despite the success of diffusion-based customization methods on visual content creation, increasing concerns have been raised about such techniques from both privacy and political perspectives. To tackle this issue, several anti-customization methods have been proposed in very recent months, predominantly grounded in adversarial attacks. Unfortunately, most of these methods adopt straightforward designs, such as end-to-end optimization with a focus on adversarially maximizing the original training loss, thereby neglecting nuanced internal properties intrinsic to the diffusion model, and even leading to ineffective optimization in some diffusion time steps.In this paper, we strive to bridge this gap by undertaking a comprehensive exploration of these inherent properties, to boost the performance of current anti-customization approaches. Two aspects of properties are investigated: 1) We examine the relationship between time step selection and the model's perception in the frequency domain of images and find that lower time steps can give much more contributions to adversarial noises. This inspires us to propose an adaptive greedy search for optimal time steps that seamlessly integrates with existing anti-customization methods. 2) We scrutinize the roles of features at different layers during denoising and devise a sophisticated feature-based optimization framework for anti-customization.Experiments on facial benchmarks demonstrate that our approach significantly increases identity disruption, thereby protecting user privacy and copyright. Our code is available at: https://github.com/somuchtome/SimAC.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# auto-sktime: 自動時系列予測

auto-sktime: Automated Time Series Forecasting ( http://arxiv.org/abs/2312.08528v3 )

ライセンス: Link先を確認
Marc-André Zöller, Marius Lindauer, Marco F. Huber, (参考訳) 今日のデータ駆動の状況では、時系列予測はさまざまな分野における意思決定において重要である。 しかし、より多様な時系列データの増加は、利用可能な予測手法の広がりと相まって、予測者にとって大きな課題となっている。 効率的な予測の需要の高まりに対応するため,自動時系列予測のための新しいフレームワークであるauto-sktimeを導入する。 提案するフレームワークは、自動機械学習(AutoML)技術を使用して、予測パイプライン全体の生成を自動化する。 このフレームワークはベイズ最適化を採用し、統計、機械学習(ML)、ディープニューラルネットワーク(DNN)モデルからパイプラインを自動的に構築する。 さらに,AutoMLを時系列データに適用するための3つの重要な改良を提案する。 まず、サポートされているさまざまな予測モデルを考慮したパイプラインテンプレート。 第2に、事前の最適化実行から最適化を開始するための、新しいウォームスタート技術である。 第3に,統計モデル,MLモデル,DNNモデルを含む探索空間に適用できるように,多要素最適化を適用した。 64の多様な実世界の時系列データセットに対する実験結果は、フレームワークの有効性と効率を実証し、人間の関与を最小限に抑えながら従来の手法より優れていた。

In today's data-driven landscape, time series forecasting is pivotal in decision-making across various sectors. Yet, the proliferation of more diverse time series data, coupled with the expanding landscape of available forecasting methods, poses significant challenges for forecasters. To meet the growing demand for efficient forecasting, we introduce auto-sktime, a novel framework for automated time series forecasting. The proposed framework uses the power of automated machine learning (AutoML) techniques to automate the creation of the entire forecasting pipeline. The framework employs Bayesian optimization, to automatically construct pipelines from statistical, machine learning (ML) and deep neural network (DNN) models. Furthermore, we propose three essential improvements to adapt AutoML to time series data. First, pipeline templates to account for the different supported forecasting models. Second, a novel warm-starting technique to start the optimization from prior optimization runs. Third, we adapt multi-fidelity optimizations to make them applicable to a search space containing statistical, ML and DNN models. Experimental results on 64 diverse real-world time series datasets demonstrate the effectiveness and efficiency of the framework, outperforming traditional methods while requiring minimal human involvement.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# 人工ニューラルネットワークによるVigenère暗号の鍵長探索

An artificial neural network approach to finding the key length of the Vigenère cipher ( http://arxiv.org/abs/2312.09956v2 )

ライセンス: Link先を確認
Christian Millichap, Yeeka Yau, (参考訳) 本稿では,Vigen\`{e}re暗号の鍵長を決定するために,古典的手法と近代的手法を組み合わせた人工知能ニューラルネットワーク(ANN)を作成する。 幅広いパラメータに対するモデルの精度を裏付ける実験的なエビデンスを提供する。 また、このANNの作成と特徴、および我々のANNと偶然のインデックスとツイストベースのアルゴリズムの比較分析についても論じる。

In this article, we create an artificial neural network (ANN) that combines both classical and modern techniques for determining the key length of a Vigen\`{e}re cipher. We provide experimental evidence supporting the accuracy of our model for a wide range of parameters. We also discuss the creation and features of this ANN along with a comparative analysis between our ANN, the index of coincidence, and the twist-based algorithms.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# AIを利用した企業知識アクセスと労働者のリスク特定のためのフレームワーク

A Framework for Exploring the Consequences of AI-Mediated Enterprise Knowledge Access and Identifying Risks to Workers ( http://arxiv.org/abs/2312.10076v2 )

ライセンス: Link先を確認
Anna Gausen, Bhaskar Mitra, Siân Lindley, (参考訳) 組織は膨大な量の情報を生成し、エンタープライズ環境での知識アクセスシステムに関する長期的な研究に繋がった。 人工知能の最近の発展は、大きな言語モデルに関連して、知識アクセスに大きな影響を及ぼすと考えられている。 これは、新しい予想外の方法で職場と知識を形成する可能性がある。 技術的システムと組織的パワーダイナミクスの相互作用によって、この種のAIシステムの展開によって、多くのリスクが発生する可能性がある。 本稿では、AIを利用した企業知識アクセスシステムから労働者のリスクを特定するためのConsequence-Mechanism-Riskフレームワークを提案する。 我々は、労働者に対するリスクを詳述した幅広い文献を執筆し、労働者の価値、力、幸福に対するリスクを分類した。 私たちのフレームワークの貢献は、さらに考慮することである 一 道徳輸入であるこれらの制度の結果、商品化、収用、権力集中、限界化 (ii)これらの結果がシステムにどのような影響を及ぼすかを示すメカニズム。 このメカニズムは、特定のシステムプロセス内のリスクを文脈的に評価する手段であり、緩和に不可欠である。 このフレームワークは、AIによる知識アクセスシステムの設計と展開に関わる実践者が、労働者が導入するリスクを考慮し、それらのリスクを導入する正確なシステムメカニズムを特定し、緩和にアプローチし始めるのを支援することを目的としている。 今後の作業は、この枠組みを他の技術システムに適用し、労働者や他のグループの保護を促進する可能性がある。

Organisations generate vast amounts of information, which has resulted in a long-term research effort into knowledge access systems for enterprise settings. Recent developments in artificial intelligence, in relation to large language models, are poised to have significant impact on knowledge access. This has the potential to shape the workplace and knowledge in new and unanticipated ways. Many risks can arise from the deployment of these types of AI systems, due to interactions between the technical system and organisational power dynamics. This paper presents the Consequence-Mechanism-Risk framework to identify risks to workers from AI-mediated enterprise knowledge access systems. We have drawn on wide-ranging literature detailing risks to workers, and categorised risks as being to worker value, power, and wellbeing. The contribution of our framework is to additionally consider (i) the consequences of these systems that are of moral import: commodification, appropriation, concentration of power, and marginalisation, and (ii) the mechanisms, which represent how these consequences may take effect in the system. The mechanisms are a means of contextualising risk within specific system processes, which is critical for mitigation. This framework is aimed at helping practitioners involved in the design and deployment of AI-mediated knowledge access systems to consider the risks introduced to workers, identify the precise system mechanisms that introduce those risks and begin to approach mitigation. Future work could apply this framework to other technological systems to promote the protection of workers and other groups.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-30
# エントロピー情報を用いた効率的な画像コピー・モーブ偽造検出

An Effective Image Copy-Move Forgery Detection Using Entropy Information ( http://arxiv.org/abs/2312.11793v2 )

ライセンス: Link先を確認
Li Jiang, Zhaowei Lu, (参考訳) 画像鑑定は私たちの日常生活においてますます重要になっている。 様々な種類の偽造品の中で、コピー・ムーブ偽造検出は学術界でかなりの注目を集めている。 キーポイントベースのアルゴリズム、特にスケール不変の特徴変換に基づくアルゴリズムは、有望な結果を得た。 しかし、キーポイント検出アルゴリズムのほとんどは、スムーズな領域で改ざんされたパッチが発生したときに十分なマッチを生成できなかったため、一致が不十分になった。 そこで,本研究では,キーポイントの座標とスケールを決定するためにエントロピー画像を導入し,上記の問題を解決するために,前処理をより適したスケール不変特徴変換検出器を提案する。 さらに,鍵点における灰色の値の非理想分布に起因するマッチング複雑性の増大を軽減するために,重なり合うエントロピーレベルクラスタリングアルゴリズムを開発した。 実験結果から,本アルゴリズムは性能と時間効率のバランスが良好であることが示された。

Image forensics has become increasingly crucial in our daily lives. Among various types of forgeries, copy-move forgery detection has received considerable attention within the academic community. Keypoint-based algorithms, particularly those based on Scale Invariant Feature Transform, have achieved promising outcomes. However, most of keypoint detection algorithms failed to generate sufficient matches when tampered patches were occurred in smooth areas, leading to insufficient matches. Therefore, this paper introduces entropy images to determine the coordinates and scales of keypoints based on Scale Invariant Feature Transform detector, which make the pre-processing more suitable for solving the above problems. Furthermore, an overlapped entropy level clustering algorithm is developed to mitigate the increased matching complexity caused by the non-ideal distribution of gray values in keypoints. Experimental results demonstrate that our algorithm achieves a good balance between performance and time efficiency.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# ディープラーニングを用いた自動冠動脈の物体検出

Object Detection for Automated Coronary Artery Using Deep Learning ( http://arxiv.org/abs/2312.12135v2 )

ライセンス: Link先を確認
Hadis Keshavarz, Hossein Sadr, (参考訳) デジタル医療の時代には、医療画像は早期疾患検出の幅広い技術として機能し、毎日大量の画像が生成され、電子的な患者記録に保存されている。 X線アンギオグラフィーは、冠動脈疾患を迅速診断する最も一般的な方法の1つである。 最近のディープラーニングアルゴリズムの顕著な成果は、電子健康記録と診断画像の利用の増加と一致している。 豊富なデータ、高度なアルゴリズム、強力な計算能力を利用するディープニューラルネットワークは、画像の分析と解釈に非常に効果的である。 この文脈において、オブジェクト検出法は、特に畳み込みニューラルネットワーク(CNN)を通じて、手動の特徴抽出を排除し、医用画像解析を合理化することで、有望なアプローチとなっている。 これにより、画像から直接の特徴抽出が可能になり、結果の精度が向上する。 そこで本研究では,冠動脈狭窄の部位を正確に把握するために,X線アンギオグラフィー画像の物体検出法を応用した。 このモデルにより、医療従事者にとって重要かつ機密性の高い意思決定プロセスを支援することにより、狭窄箇所の自動的かつリアルタイムな検出が可能になる。

In the era of digital medicine, medical imaging serves as a widespread technique for early disease detection, with a substantial volume of images being generated and stored daily in electronic patient records. X-ray angiography imaging is a standard and one of the most common methods for rapidly diagnosing coronary artery diseases. The notable achievements of recent deep learning algorithms align with the increased use of electronic health records and diagnostic imaging. Deep neural networks, leveraging abundant data, advanced algorithms, and powerful computational capabilities, prove highly effective in the analysis and interpretation of images. In this context, Object detection methods have become a promising approach, particularly through convolutional neural networks (CNN), streamlining medical image analysis by eliminating manual feature extraction. This allows for direct feature extraction from images, ensuring high accuracy in results. Therefore, in our paper, we utilized the object detection method on X-ray angiography images to precisely identify the location of coronary artery stenosis. As a result, this model enables automatic and real-time detection of stenosis locations, assisting in the crucial and sensitive decision-making process for healthcare professionals.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# 多様な環境におけるマルチUAV探索行動のためのデュアルカリキュラム学習フレームワーク

A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments ( http://arxiv.org/abs/2312.12255v2 )

ライセンス: Link先を確認
Jiayu Chen, Guosheng Li, Chao Yu, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang, (参考訳) 本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。 既存のヒューリスティックアルゴリズムは、追従回避問題を単純化し、しばしば表現力のある協調戦略が欠如し、避難者が高速で移動するような極端なシナリオで避難者を捕まえるのに苦労する。 対照的に、この問題に対して強化学習(RL)が適用されており、高度に協調的な捕獲戦略を得る可能性がある。 しかし、RLに基づく手法は、広大な探索空間のため、多様なタスク設定を持つ複雑な3次元シナリオの訓練において課題に直面している。 ドローンのダイナミックス制約により、強化学習による高性能捕獲戦略の獲得がさらに制限される。 本研究では,多様な環境におけるマルチUAV追従回避に対処するデュアルカリキュラム学習フレームワークDualCLを紹介する。 DualCLの主なコンポーネントは、ドローンの捕獲能力を向上させるために、内在パラメーターを徐々に提案する内在パラメーター計算プロポーラと、未解決シナリオを探索し、外部環境パラメータの適切なトレーニング分布を生成する外部環境ジェネレータである。 シミュレーション実験の結果、DualCLはベースライン法を著しく上回り、90%以上の捕獲率を達成し、訓練シナリオでは少なくとも27.5%の捕獲時間を短縮した。 さらに、目に見えない環境で最高のゼロショット一般化能力を示す。 さらに,シミュレーションから実環境への追跡戦略の伝達可能性を示す。 詳細はプロジェクトのWebサイトhttps://sites.google.com/view/dualcl.comで確認できる。

This paper addresses multi-UAV pursuit-evasion, where a group of drones cooperates to capture a fast evader in a confined environment with obstacles. Existing heuristic algorithms, which simplify the pursuit-evasion problem, often lack expressive coordination strategies and struggle to capture the evader in extreme scenarios, such as when the evader moves at high speeds. In contrast, reinforcement learning (RL) has been applied to this problem and has the potential to obtain highly cooperative capture strategies. However, RL-based methods face challenges in training for complex 3-dimensional scenarios with diverse task settings due to the vast exploration space. The dynamics constraints of drones further restrict the ability of reinforcement learning to acquire high-performance capture strategies. In this work, we introduce a dual curriculum learning framework, named DualCL, which addresses multi-UAV pursuit-evasion in diverse environments and demonstrates zero-shot transfer ability to unseen scenarios. DualCL comprises two main components: the Intrinsic Parameter Curriculum Proposer, which progressively suggests intrinsic parameters from easy to hard to improve the capture capability of drones, and the External Environment Generator, tasked with exploring unresolved scenarios and generating appropriate training distributions of external environment parameters. The simulation experimental results show that DualCL significantly outperforms baseline methods, achieving over 90% capture rate and reducing the capture timestep by at least 27.5% in the training scenarios. Additionally, it exhibits the best zero-shot generalization ability in unseen environments. Moreover, we demonstrate the transferability of our pursuit strategy from simulation to real-world environments. Further details can be found on the project website at https://sites.google.com/view/dualcl.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# 確率ゲームによるLong-run Average Reward Robust MDPの解法

Solving Long-run Average Reward Robust MDPs via Stochastic Games ( http://arxiv.org/abs/2312.13912v2 )

ライセンス: Link先を確認
Krishnendu Chatterjee, Ehsan Kafshdar Goharshady, Mehrdad Karrabi, Petr Novotný, Đorđe Žikelić, (参考訳) マルコフ決定プロセス(MDP)は、不確実性の下でのシーケンシャルな意思決定のための標準フレームワークを提供する。 しかし、MDPは遷移確率の不確実性を考慮していない。 ロバスト・マルコフ決定プロセス(RMDP)は、各遷移に単一の確率値ではなく不確実性セットを割り当てることで、MDPのこの欠点に対処する。 本研究では,全ての不確実集合がポリトープであるポリトープ RMDP について考察し,長期平均報酬 RMDP の解法について考察する。 この問題に対する新たな視点を提示し、有限状態およびアクション空間を持つ長期平均報酬型確率ゲームに還元可能であることを示す。 この減少により,ポリトピックRMDPを保有することが分かっていなかったいくつかの重要な結果が導出される。 まず,長期平均報酬 RMDP を解くための新しい計算複雑性境界を導出し,そのしきい値決定問題は$NP \cap coNP$ であり,サブ指数予測実行時のランダム化アルゴリズムを許容することを示す。 第2に,ロバスト・ポリトピック・ポリシー・イテレーション(RPPI)を提案する。 実験により、RPPIは、値反復に基づく最先端手法と比較して、長期平均ポリトピー的RMDPの解法においてはるかに効率的であることが示された。

Markov decision processes (MDPs) provide a standard framework for sequential decision making under uncertainty. However, MDPs do not take uncertainty in transition probabilities into account. Robust Markov decision processes (RMDPs) address this shortcoming of MDPs by assigning to each transition an uncertainty set rather than a single probability value. In this work, we consider polytopic RMDPs in which all uncertainty sets are polytopes and study the problem of solving long-run average reward polytopic RMDPs. We present a novel perspective on this problem and show that it can be reduced to solving long-run average reward turn-based stochastic games with finite state and action spaces. This reduction allows us to derive several important consequences that were hitherto not known to hold for polytopic RMDPs. First, we derive new computational complexity bounds for solving long-run average reward polytopic RMDPs, showing for the first time that the threshold decision problem for them is in $NP \cap coNP$ and that they admit a randomized algorithm with sub-exponential expected runtime. Second, we present Robust Polytopic Policy Iteration (RPPI), a novel policy iteration algorithm for solving long-run average reward polytopic RMDPs. Our experimental evaluation shows that RPPI is much more efficient in solving long-run average reward polytopic RMDPs compared to state-of-the-art methods based on value iteration.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# 人のフィードバックによる強化学習の実態調査

A Survey of Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2312.14925v2 )

ライセンス: Link先を確認
Timo Kaufmann, Paul Weng, Viktor Bengs, Eyke Hüllermeier, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、工学的な報酬関数に頼るのではなく、人間のフィードバックから学習する強化学習(RL)の一種である。 嗜好に基づく強化学習(PbRL)に関する先行研究に基づいて、人工知能と人間とコンピュータの相互作用の交差点に立っている。 この位置付けは、知的システムのパフォーマンスと適応性を高めるとともに、目的と人間の価値の整合性を向上させるための有望な道を提供する。 大規模言語モデル(LLM)の訓練は、近年、人間の目的に向けてモデルの能力を導く上で、RLHFが決定的な役割を担っているという、この可能性を顕著に証明している。 本稿では、RLHFの基礎を概観し、RLエージェントとヒューマンインプットの複雑なダイナミクスを探求する。 近年, LLM の RLHF に焦点が当てられているが,本調査では多種多様な応用, 広範にわたる影響について, より広い視点で検討している。 我々は、RLHFの基盤となる中核的な原理を探求し、アルゴリズムと人間のフィードバックの共生関係に光を当て、この分野における主要な研究動向について議論する。 本稿は,RLHF研究の現況を合成することによって,この急成長する研究分野の包括的理解を研究者や実践者に提供することを目的とする。

Reinforcement learning from human feedback (RLHF) is a variant of reinforcement learning (RL) that learns from human feedback instead of relying on an engineered reward function. Building on prior work on the related setting of preference-based reinforcement learning (PbRL), it stands at the intersection of artificial intelligence and human-computer interaction. This positioning offers a promising avenue to enhance the performance and adaptability of intelligent systems while also improving the alignment of their objectives with human values. The training of large language models (LLMs) has impressively demonstrated this potential in recent years, where RLHF played a decisive role in directing the model's capabilities toward human objectives. This article provides a comprehensive overview of the fundamentals of RLHF, exploring the intricate dynamics between RL agents and human input. While recent focus has been on RLHF for LLMs, our survey adopts a broader perspective, examining the diverse applications and wide-ranging impact of the technique. We delve into the core principles that underpin RLHF, shedding light on the symbiotic relationship between algorithms and human feedback, and discuss the main research trends in the field. By synthesizing the current landscape of RLHF research, this article aims to provide researchers as well as practitioners with a comprehensive understanding of this rapidly growing field of research.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# 不均衡線形分類のためのパーセプトロン(SIGTRON)を用いた拡張非対称シグモノイド

An extended asymmetric sigmoid with Perceptron (SIGTRON) for imbalanced linear classification ( http://arxiv.org/abs/2312.16043v3 )

ライセンス: Link先を確認
Hyenkyun Woo, (参考訳) 本稿では、パーセプトロンと拡張非対称シグマノイドであるSIGTRONと呼ばれる新しい多項式パラメタライズドシグマノイドと、仮想SIGTRON誘導凸損失関数を用いたSIGTRON不均衡分類(SIC)モデルを提案する。 従来の$\pi$-weighted cost-sensitive learning modelとは対照的に、SICモデルは損失関数に外部の$\pi$-weightを持たず、仮想SIGTRON誘導損失関数の内部パラメータを持つ。 その結果、与えられたトレーニングデータセットが(スケール-)クラス不均衡比を考慮すると、SICモデルはトレーニングデータセットとテストデータセットの(スケール-)クラス不均衡比の不整合など、データセットのバリエーションに適応していることが示される。 この適応は、$\epsilon$-Optimal条件を満たす勾配の線形化によって生成される歪んだ超平面方程式によって正当化される。 さらに,間隔に基づく断面線探索を開発することにより,仮想凸損失に対する準ニュートン最適化(L-BFGS)フレームワークを提案する。 実験により,提案手法は,511ドル2級および670ドルのマルチクラスデータセットを用いたテスト分類精度において,$\pi$-weighted convex focal loss, and balanced classifier LIBLINEAR(物流回帰, SVM, L2SVM)よりも優れていることがわかった。 トレーニングデータセットのスケールクラス不均衡比が重要でないバイナリ分類問題では、各データセットに最適なテスト精度を持つSICモデル群(TOP$1$)が、よく知られたカーネルベースの分類器であるLIBSVM(C-SVC with RBF kernel)より優れている。

This article presents a new polynomial parameterized sigmoid called SIGTRON, which is an extended asymmetric sigmoid with Perceptron, and its companion convex model called SIGTRON-imbalanced classification (SIC) model that employs a virtual SIGTRON-induced convex loss function. In contrast to the conventional $\pi$-weighted cost-sensitive learning model, the SIC model does not have an external $\pi$-weight on the loss function but has internal parameters in the virtual SIGTRON-induced loss function. As a consequence, when the given training dataset is close to the well-balanced condition considering the (scale-)class-imbalance ratio, we show that the proposed SIC model is more adaptive to variations of the dataset, such as the inconsistency of the (scale-)class-imbalance ratio between the training and test datasets. This adaptation is justified by a skewed hyperplane equation, created via linearization of the gradient satisfying $\epsilon$-optimal condition. Additionally, we present a quasi-Newton optimization(L-BFGS) framework for the virtual convex loss by developing an interval-based bisection line search. Empirically, we have observed that the proposed approach outperforms (or is comparable to) $\pi$-weighted convex focal loss and balanced classifier LIBLINEAR(logistic regression, SVM, and L2SVM) in terms of test classification accuracy with $51$ two-class and $67$ multi-class datasets. In binary classification problems, where the scale-class-imbalance ratio of the training dataset is not significant but the inconsistency exists, a group of SIC models with the best test accuracy for each dataset (TOP$1$) outperforms LIBSVM(C-SVC with RBF kernel), a well-known kernel-based classifier.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# LW-FedSSL:資源効率のよいレイヤーワイド・フェデレーション型自己教師型学習

LW-FedSSL: Resource-efficient Layer-wise Federated Self-supervised Learning ( http://arxiv.org/abs/2401.11647v2 )

ライセンス: Link先を確認
Ye Lin Tun, Chu Myaet Thwal, Le Quang Huy, Minh N. H. Nguyen, Choong Seon Hong, (参考訳) 多くの研究は、エッジデバイスに分散した生データを活用するために、フェデレートラーニング(FL)と自己教師付きラーニング(SSL)を統合している。 しかし、エッジデバイスは、SSLとFLアルゴリズムによって課される高い計算と通信コストに悩まされることが多い。 この障害に対処するために、エッジデバイスが一度にモデルの単一レイヤをインクリメンタルにトレーニングできるレイヤワイドな自己教師付き学習アプローチであるLW-FedSSLを提案する。 我々のLW-FedSSLはサーバ側のキャリブレーションと表現アライメント機構を備えており、クライアントのリソース要求を大幅に低減しつつ、エンドツーエンドのフェデレーション付き自己教師付き学習(FedSSL)と同等のパフォーマンスを維持する。 純粋なレイヤワイドトレーニングスキームでは、一度に1つのレイヤをトレーニングすることで、モデルの異なるレイヤ間の効果的な相互作用を制限することができる。 サーバサイドのキャリブレーション機構は、FL環境におけるリソース豊富なサーバを活用し、グローバルモデルの異なるレイヤ間のスムーズな協調を保証する。 局所的な訓練過程において、表象アライメント機構は、FL局所モデルの表現とグローバルモデルの表現との密接性を促進し、サーバ側校正によって確立された層凝集を保ちます。 我々の実験によると、LW-FedSSLのメモリ要件は3.3ドル、通信コストは3.2ドルだった。 Prog-FedSSLと呼ばれるプログレッシブなトレーニング戦略についても検討しています。

Many studies integrate federated learning (FL) with self-supervised learning (SSL) to take advantage of raw training data distributed across edge devices. However, edge devices often struggle with high computation and communication costs imposed by SSL and FL algorithms. To tackle this hindrance, we propose LW-FedSSL, a layer-wise federated self-supervised learning approach that allows edge devices to incrementally train a single layer of the model at a time. Our LW-FedSSL comprises server-side calibration and representation alignment mechanisms to maintain comparable performance with end-to-end federated self-supervised learning (FedSSL) while significantly lowering clients' resource requirements. In a pure layer-wise training scheme, training one layer at a time may limit effective interaction between different layers of the model. The server-side calibration mechanism takes advantage of the resource-rich server in an FL environment to ensure smooth collaboration between different layers of the global model. During the local training process, the representation alignment mechanism encourages closeness between representations of FL local models and those of the global model, thereby preserving the layer cohesion established by server-side calibration. Our experiments show that LW-FedSSL has a $3.3 \times$ lower memory requirement and a $3.2 \times$ cheaper communication cost than its end-to-end counterpart. We also explore a progressive training strategy called Prog-FedSSL that outperforms end-to-end training with a similar memory requirement and a $1.8 \times$ cheaper communication cost.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# 知識蒸留におけるカーネルアライメントの再考

Rethinking Centered Kernel Alignment in Knowledge Distillation ( http://arxiv.org/abs/2401.11824v4 )

ライセンス: Link先を確認
Zikai Zhou, Yunhang Shen, Shitong Shao, Linrui Gong, Shaohui Lin, (参考訳) 知識蒸留は、大規模モデルと軽量モデルの間の表現の相違をブリッジする非常に効果的な方法として登場した。 代表的なアプローチは、教師モデルから抽出された知識と学生モデルによって学習された知識とのばらつきや距離を最小化するために、適切なメトリクスを活用することである。 CKA(Centered Kernel Alignment)は、表現の類似性を測定するために広く用いられ、いくつかの知識蒸留法に応用されている。 しかし、これらの手法は複雑であり、CKAの本質を明らかにすることができないため、CKAをいかにしてシンプルで効果的な蒸留を適切に行うかという疑問に答えることができない。 本稿ではまず,CKAを最大平均離散値~(MMD)の上界と定数項に分解するCKAの有効性を理論的に説明する。 そこで本研究では,CKAとMDDの相互接続を実質的に確立する,リレーショナル中心カーネルアライメント~(RCKA)フレームワークを提案する。 さらに,各タスクの特性に基づいてCKAの適用を動的にカスタマイズする。 CIFAR-100, ImageNet-1k, MS-COCOの広範囲な実験により, 画像分類とオブジェクト検出のためのほぼすべての教師と学生のペアに対して, 最先端のパフォーマンスを実現し, 提案手法の有効性を検証した。 私たちのコードはhttps://github.com/Klayand/PCKAで利用可能です。

Knowledge distillation has emerged as a highly effective method for bridging the representation discrepancy between large-scale models and lightweight models. Prevalent approaches involve leveraging appropriate metrics to minimize the divergence or distance between the knowledge extracted from the teacher model and the knowledge learned by the student model. Centered Kernel Alignment (CKA) is widely used to measure representation similarity and has been applied in several knowledge distillation methods. However, these methods are complex and fail to uncover the essence of CKA, thus not answering the question of how to use CKA to achieve simple and effective distillation properly. This paper first provides a theoretical perspective to illustrate the effectiveness of CKA, which decouples CKA to the upper bound of Maximum Mean Discrepancy~(MMD) and a constant term. Drawing from this, we propose a novel Relation-Centered Kernel Alignment~(RCKA) framework, which practically establishes a connection between CKA and MMD. Furthermore, we dynamically customize the application of CKA based on the characteristics of each task, with less computational source yet comparable performance than the previous methods. The extensive experiments on the CIFAR-100, ImageNet-1k, and MS-COCO demonstrate that our method achieves state-of-the-art performance on almost all teacher-student pairs for image classification and object detection, validating the effectiveness of our approaches. Our code is available in https://github.com/Klayand/PCKA
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# アルゴリズムのシステム理論に向けて

Towards a Systems Theory of Algorithms ( http://arxiv.org/abs/2401.14029v2 )

ライセンス: Link先を確認
Florian Dörfler, Zhiyu He, Giuseppe Belgioioso, Saverio Bolognani, John Lygeros, Michael Muehlebach, (参考訳) 伝統的に、数値アルゴリズムは、シリコの存在に制限されたコードの孤立した断片と見なされる。 しかし、この観点は制御、学習、最適化における現代の多くの計算手法には適していない。 このようなオープンアルゴリズムの例としては、様々なリアルタイム最適化ベースの制御戦略、強化学習、意思決定アーキテクチャ、オンライン最適化などがある。 さらに、学習や最適化のアルゴリズムでさえ、動的モジュールやパイプラインと相互作用するブロックダイアグラムで抽象化されるようになっている。 本稿では,アルゴリズムを他のアルゴリズム,物理システム,人間,データベースと相互作用するオープンな力学系として見ることを支持する。 注目すべきことに、システム理論の傘下で開発された多様体ツールは、アルゴリズム領域における様々な課題に対処するのに適している。 アルゴリズムシステム理論の原理が開発されている様々な事例を調査し、関連するモデリング、分析、設計課題を概説する。

Traditionally, numerical algorithms are seen as isolated pieces of code confined to an {\em in silico} existence. However, this perspective is not appropriate for many modern computational approaches in control, learning, or optimization, wherein {\em in vivo} algorithms interact with their environment. Examples of such {\em open algorithms} include various real-time optimization-based control strategies, reinforcement learning, decision-making architectures, online optimization, and many more. Further, even {\em closed} algorithms in learning or optimization are increasingly abstracted in block diagrams with interacting dynamic modules and pipelines. In this opinion paper, we state our vision on a to-be-cultivated {\em systems theory of algorithms} and argue in favor of viewing algorithms as open dynamical systems interacting with other algorithms, physical systems, humans, or databases. Remarkably, the manifold tools developed under the umbrella of systems theory are well suited for addressing a range of challenges in the algorithmic domain. We survey various instances where the principles of algorithmic systems theory are being developed and outline pertinent modeling, analysis, and design challenges.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# My Chatbot: AIの影響を予測するためのシナリオ駆動型ユーザ中心アプローチ

My Future with My Chatbot: A Scenario-Driven, User-Centric Approach to Anticipating AI Impacts ( http://arxiv.org/abs/2401.14533v2 )

ライセンス: Link先を確認
Kimon Kieslich, Natali Helberger, Nicholas Diakopoulos, (参考訳) 具体的な事前定義された目的を持たない汎用技術として、パーソナルチャットボットは、個人の個人的ニーズ、コンテキスト、タスクによって、あらゆる目的に使用できるため、さまざまな価値、人、社会的コンテキストに影響を与える可能性がある。 伝統的なリスクアセスメントの方法は、明確に定義された技術目的の欠如、オリエントに明確に定義された価値の欠如、使用の不均一性、個人が生きた現実の観点から影響を期待する市民自身が積極的に関与することの難しさなど、いくつかの課題に直面している。 本稿では、これらの課題に応答するAIの影響を予測する方法として、シナリオ記述を大規模に活用する。 シナリオ手法の利点は、個々のユーザーをエンゲージし、チャットボットが現実にどう影響するかを考えるよう刺激し、異種市民の文化的・社会的埋め込みに応じて異なるインパクトシナリオを収集する能力である。 経験的に、米国を拠点とする参加者106人に、個人や社会に対するAIベースのパーソナルチャットボットの将来的な影響(望ましいか望ましくないか)について、短いフィクション記事を書くよう依頼した。 分析過程において、これらの影響をマッピングし、社会デデノグラフィーとシナリオライターのAI関連態度との関連で分析する。 本手法は,(1)AIに基づく個人チャットボットの望ましい影響と望ましくない影響を同定し,マッピングすること,(2)個人にとって重要な値に関連づけること,(3)影響予測の社会デデマトグラフィーとAI関連性の違いを検出することに有効であることを示す。

As a general purpose technology without a concrete pre-defined purpose, personal chatbots can be used for a whole range of objectives, depending on the personal needs, contexts, and tasks of an individual, and so potentially impact a variety of values, people, and social contexts. Traditional methods of risk assessment are confronted with several challenges: the lack of a clearly defined technology purpose, the lack of clearly defined values to orient on, the heterogeneity of uses, and the difficulty of actively engaging citizens themselves in anticipating impacts from the perspective of their individual lived realities. In this article, we leverage scenario writing at scale as a method for anticipating AI impact that is responsive to these challenges. The advantages of the scenario method are its ability to engage individual users and stimulate them to consider how chatbots are likely to affect their reality and so collect different impact scenarios depending on the cultural and societal embedding of a heterogeneous citizenship. Empirically, we tasked 106 US-based participants to write short fictional stories about the future impact (whether desirable or undesirable) of AI-based personal chatbots on individuals and society and, in addition, ask respondents to explain why these impacts are important and how they relate to their values. In the analysis process, we map those impacts and analyze them in relation to socio-demographic as well as AI-related attitudes of the scenario writers. We show that our method is effective in (1) identifying and mapping desirable and undesirable impacts of AI-based personal chatbots, (2) setting these impacts in relation to values that are important for individuals, and (3) detecting socio-demographic and AI-attitude related differences of impact anticipation.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# マシンビジョンアイスバーグの解説:ホロスティックな環境関係を考慮した動的テストの改善

The Machine Vision Iceberg Explained: Advancing Dynamic Testing by Considering Holistic Environmental Relations ( http://arxiv.org/abs/2401.14831v3 )

ライセンス: Link先を確認
Hubert Padusinski, Christian Steinhauser, Thilo Braun, Lennart Ries, Eric Sax, (参考訳) 機械ビジョン(MV)は、運転自動化の解決に不可欠である。 本稿では,自動走行(HAD)システムにおける現在のMVテスト戦略の潜在的な問題点について検討する。 MV評価プロセスにおいて考慮すべきパフォーマンス要因について、より包括的な理解を求める一方で、これらの要因を無視することは重大なリスクをもたらす可能性があると指摘する。 これはMVコンポーネントのテストだけでなく、統合テストにも関係しています。 この点を説明するために、我々は氷山に向かって航行する船を例証し、現在のMVテスト戦略における潜在的な隠れた課題を示す。 主な貢献は、環境関係を観察するブラックボックステストのための新しいフレームワークである。 これは、関連する個々のオブジェクトの属性や周囲を考慮し、MVアセスメントを強化するように設計されている。 このフレームワークは、確立されたテストプロセスにおいて適切に対処されていないMVのオブジェクト認識に関する7つの一般的な懸念を識別する。 それらの性能要因に基づいてこれらの欠陥を検出するため,グラフィカルな表現とともに「粒度順序」と呼ばれる分類法を提案する。 これにより、様々な運転シナリオにおけるMVの不確実性を特定することができる。 本研究の目的は,MV試験の精度,効率,完全性を向上させることである。

Machine Vision (MV) is essential for solving driving automation. This paper examines potential shortcomings in current MV testing strategies for highly automated driving (HAD) systems. We argue for a more comprehensive understanding of the performance factors that must be considered during the MV evaluation process, noting that neglecting these factors can lead to significant risks. This is not only relevant to MV component testing, but also to integration testing. To illustrate this point, we draw an analogy to a ship navigating towards an iceberg to show potential hidden challenges in current MV testing strategies. The main contribution is a novel framework for black-box testing which observes environmental relations. This means it is designed to enhance MV assessments by considering the attributes and surroundings of relevant individual objects. The framework provides the identification of seven general concerns about the object recognition of MV, which are not addressed adequately in established test processes. To detect these deficits based on their performance factors, we propose the use of a taxonomy called "granularity orders" along with a graphical representation. This allows an identification of MV uncertainties across a range of driving scenarios. This approach aims to advance the precision, efficiency, and completeness of testing procedures for MV.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# 大きな負の有効範囲を持つ3つのボソンの普遍性:アスペクトとアセンダ

Universality for Three Bosons with Large, Negative Effective Range: Aspects and Addenda ( http://arxiv.org/abs/2401.15402v2 )

ライセンス: Link先を確認
Harald W. Griesshammer, (参考訳) Resummed-Range Effective Field Theory は、大きな2体散乱長 $a$ と有効範囲 $r_0$ を持つ系の点相互作用の一貫性のない非相対論的有効場理論である。 その主順序は非摂動的であり、その可観測量は次元のない比 $\xi:=2r_0/a$ once $|r_0|$ にのみ依存する。 このプレゼンテーションは、3つの同一スピンレスボソンの側面を強調し、以前の議論 [1] に詳細を追加する。 先頭の順序では、三体相互作用は不要である。 基底状態は、0.366\ldots\ge\xi\ge-8.72\ldots$の範囲にのみ存在し、励起状態は自己相似性と離散スケール不変性を示し、非ゼロの$r_0$に対して小さな補正を行う。

Resummed-Range Effective Field Theory is the consistent non-relativistic Effective Field Theory of point interactions in systems with large two-body scattering length $a$ and an effective range $r_0$ large in magnitude but negative. Its leading order is non-perturbative, and its observables depend only on the dimensionless ratio $\xi:=2r_0/a$ once $|r_0|$ is chosen as base unit. This presentation highlights aspects for three identical spinless bosons and adds details to a previous discussion [1]. At leading order, no three-body interaction is needed. A ground state exists only in the range $0.366\ldots\ge\xi\ge-8.72\ldots$, and excited states display self-similarity and Discrete Scale Invariance, with small corrections for nonzero $r_0$.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# SCTransNet:赤外小ターゲット検出のための空間チャネルクロストランスネットワーク

SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection ( http://arxiv.org/abs/2401.15583v3 )

ライセンス: Link先を確認
Shuai Yuan, Hanlin Qin, Xiang Yan, Naveed AKhtar, Ajmal Mian, (参考訳) 赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。 しかし,実効的なグローバル情報モデリングを概ね見落としている既存の手法は,対象が背景と高い類似性を持つ場合に困難である。 本稿では,この課題に対処するために,長距離スキップ接続上の空間チャネルクロストランスブロック(SCTB)を利用する空間チャネルクロストランスネットワーク(SCTransNet)を提案する。 提案したSCTBでは、全てのエンコーダの出力をクロストランスフォーマーと相互作用して混合特徴を生成する。 具体的には、SCTBは以下の2つのキー要素を含む。 (a)局所的空間特徴とフルレベルグローバルチャネル情報を交換し、エンコーダ間のあいまいさをなくし、画像の高レベルなセマンティックアソシエーションを促進するための空間埋め込みシングルヘッドチャネルクロスアテンション(SSCA) b)マルチスケール戦略と空間間情報通信により特徴識別性を向上し,有益な情報伝達を促進するための補完的フィードフォワードネットワーク(CFN)を提案する。 我々のSCTransNetは、ターゲットと背景のセマンティックな差異を効果的に符号化し、その内部表現を高めて、小さな赤外線ターゲットを正確に検出する。 3つの公開データセット(NUDT-SIRST、NUAA-SIRST、IRSTD-1k)に対する大規模な実験は、提案されたSCTransNetが既存のIRSTD法より優れていることを示した。 私たちのコードはhttps://github.com/xdFai.comで公開されます。

Infrared small target detection (IRSTD) has recently benefitted greatly from U-shaped neural models. However, largely overlooking effective global information modeling, existing techniques struggle when the target has high similarities with the background. We present a Spatial-channel Cross Transformer Network (SCTransNet) that leverages spatial-channel cross transformer blocks (SCTBs) on top of long-range skip connections to address the aforementioned challenge. In the proposed SCTBs, the outputs of all encoders are interacted with cross transformer to generate mixed features, which are redistributed to all decoders to effectively reinforce semantic differences between the target and clutter at full scales. Specifically, SCTB contains the following two key elements: (a) spatial-embedded single-head channel-cross attention (SSCA) for exchanging local spatial features and full-level global channel information to eliminate ambiguity among the encoders and facilitate high-level semantic associations of the images, and (b) a complementary feed-forward network (CFN) for enhancing the feature discriminability via a multi-scale strategy and cross-spatial-channel information interaction to promote beneficial information transfer. Our SCTransNet effectively encodes the semantic differences between targets and backgrounds to boost its internal representation for detecting small infrared targets accurately. Extensive experiments on three public datasets, NUDT-SIRST, NUAA-SIRST, and IRSTD-1k, demonstrate that the proposed SCTransNet outperforms existing IRSTD methods. Our code will be made public at https://github.com/xdFai.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# SMT戦略合成のための層状および段状モンテカルロ木探索

Layered and Staged Monte Carlo Tree Search for SMT Strategy Synthesis ( http://arxiv.org/abs/2401.17159v2 )

ライセンス: Link先を確認
Zhengyang Lu, Stefan Siemer, Piyush Jha, Joel Day, Florin Manea, Vijay Ganesh, (参考訳) Z3のような現代のSMTソルバはユーザ制御可能な戦略を提供しており、ユーザーは独自のインスタンスセットの解法をカスタマイズできるため、ユースケースの解法性能は劇的に向上する。 しかし、戦略カスタマイズのこのアプローチは、重要な課題である: SMTインスタンスのクラスに対して最適化された戦略を手作りすることは、解決者開発者とユーザの両方にとって、複雑で要求の多いタスクである。 本稿では,モンテカルロ木探索法(MCTS)を用いた自動SMT戦略合成の課題に対処する。 提案手法は,探索木が戦略空間に対応する逐次決定過程として戦略合成を扱い,MCTSを用いてこの広大な探索空間をナビゲートする。 コストを低く抑えながら有効な戦略を特定できる重要な革新は、層状およびステージ状MCTS探索の考え方である。 これらの新しいヒューリスティックは、戦略空間のより深くより効率的な探索を可能にし、SOTA(State-of-the-art) SMTソルバのデフォルト戦略よりも効果的な戦略を合成することができる。 我々は、Z3 SMTソルバの一部として、Z3alphaと呼ばれる手法を実装した。 Z3alphaは6つの重要なSMT論理の広範な評価を通じて、ほとんどのベンチマークにおいてデフォルトのZ3ソルバであるSOTA合成ツールであるFastSMTやCVC5ソルバよりも優れた性能を示す。 興味深いことに、難しいQF_BVベンチマークセットでは、Z3alphaはZ3 SMTソルバのデフォルト戦略よりも42.7%多くのインスタンスを解決している。

Modern SMT solvers, such as Z3, offer user-controllable strategies, enabling users to tailor solving strategies for their unique set of instances, thus dramatically enhancing solver performance for their use case. However, this approach of strategy customization presents a significant challenge: handcrafting an optimized strategy for a class of SMT instances remains a complex and demanding task for both solver developers and users alike. In this paper, we address this problem of automatic SMT strategy synthesis via a novel Monte Carlo Tree Search (MCTS) based method. Our method treats strategy synthesis as a sequential decision-making process, whose search tree corresponds to the strategy space, and employs MCTS to navigate this vast search space. The key innovations that enable our method to identify effective strategies, while keeping costs low, are the ideas of layered and staged MCTS search. These novel heuristics allow for a deeper and more efficient exploration of the strategy space, enabling us to synthesize more effective strategies than the default ones in state-of-the-art (SOTA) SMT solvers. We implement our method, dubbed Z3alpha, as part of the Z3 SMT solver. Through extensive evaluations across six important SMT logics, Z3alpha demonstrates superior performance compared to the SOTA synthesis tool FastSMT, the default Z3 solver, and the CVC5 solver on most benchmarks. Remarkably, on a challenging QF_BV benchmark set, Z3alpha solves 42.7% more instances than the default strategy in the Z3 SMT solver.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-30
# 拡散モデルは意味的かつ効率的な表現を学習するか?

Do Diffusion Models Learn Semantically Meaningful and Efficient Representations? ( http://arxiv.org/abs/2402.03305v2 )

ライセンス: Link先を確認
Qiyao Liang, Ziming Liu, Ila Fiete, (参考訳) 拡散モデルは、うまく配置された影で月面に馬に乗る宇宙飛行士のような、珍しい並外れたジャキスタポジションで、画像生成の印象的な偉業を達成できる。 これらの出力は、構成的一般化を行う能力を示しているが、モデルはどうすればよいのか? 条件付きDDPM学習の制御実験を行い、2次元球面ガウスバンプを所定の$x$-および$y$-ポジションで生成する。 以上の結果から,意味的に意味のある潜在表現の出現が,高い性能を達成するための鍵であることが示唆された。 学習よりもパフォーマンスを成功させるために、このモデルは、(フェーズA)潜在構造、(フェーズB)乱状態の2次元多様体、(フェーズC)2次元順序多様体の3つの異なる位相を横切る。 これら各段階に対応して、定性的に異なる世代行動を特定する。 1)複数のバンプが生成される。 2) 1つのバンプが生成されるが、不正確な$x$と$y$のロケーションが生成される。 3) 正しい$x$とyロケーションでバンプが生成される。 さらに、機能(x$-と$y$-positions)が歪んだ周波数で表される不均衡データセットであっても、$x$と$y$の学習プロセスは分解されるのではなく結合されていることを示し、単純なバニラ風味拡散モデルでは、$x$と$y$のローカライズが別個の1Dタスクに分解されるような効率的な表現を学習できないことを示した。 これらの知見は、生成モデルに入力中の分解可能な独立構造を発見し、活用するよう促す帰納的バイアスを見つけるための将来の研究の必要性を示唆している。

Diffusion models are capable of impressive feats of image generation with uncommon juxtapositions such as astronauts riding horses on the moon with properly placed shadows. These outputs indicate the ability to perform compositional generalization, but how do the models do so? We perform controlled experiments on conditional DDPMs learning to generate 2D spherical Gaussian bumps centered at specified $x$- and $y$-positions. Our results show that the emergence of semantically meaningful latent representations is key to achieving high performance. En route to successful performance over learning, the model traverses three distinct phases of latent representations: (phase A) no latent structure, (phase B) a 2D manifold of disordered states, and (phase C) a 2D ordered manifold. Corresponding to each of these phases, we identify qualitatively different generation behaviors: 1) multiple bumps are generated, 2) one bump is generated but at inaccurate $x$ and $y$ locations, 3) a bump is generated at the correct $x$ and y location. Furthermore, we show that even under imbalanced datasets where features ($x$- versus $y$-positions) are represented with skewed frequencies, the learning process for $x$ and $y$ is coupled rather than factorized, demonstrating that simple vanilla-flavored diffusion models cannot learn efficient representations in which localization in $x$ and $y$ are factorized into separate 1D tasks. These findings suggest the need for future work to find inductive biases that will push generative models to discover and exploit factorizable independent structures in their inputs, which will be required to vault these models into more data-efficient regimes.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-30
# 会話検索における生成ネイティブ広告の検出

Detecting Generated Native Ads in Conversational Search ( http://arxiv.org/abs/2402.04889v2 )

ライセンス: Link先を確認
Sebastian Schmidt, Ines Zelch, Janek Bevendorff, Benno Stein, Matthias Hagen, Martin Potthast, (参考訳) YouChatやMicrosoft Copilotといった会話型検索エンジンは、大きな言語モデル(LLM)を使用してクエリに対する応答を生成する。 レスポンスの横に広告を別々に配置するのではなく、同じテクノロジが生成されたレスポンスに広告を挿入する、という小さなステップに過ぎません。 インサート広告は、ネイティブ広告とプロダクトの配置を連想させるものであり、どちらも非常に効果的な、微妙で操作的な広告形式である。 持続可能なビジネスモデルを開発する必要があるLCMに関連する高い計算コストを考えると、対話型検索エンジンのユーザは近い将来、生み出すネイティブ広告に直面することになるかもしれない。 そこで本稿では, LLM がネイティブ広告をブロックする対策としても利用できるかどうかを, 第一段階として検討する。 我々は、Webis Generated Native Ads 2024データセットをコンパイルし、自動的に挿入された広告で応答を生成し、LLMまたは微調整文変換器が広告を検出できるかどうかを評価する。 実験では, LLMは課題に対処するが, 文変換器の精度は0.9以上である。

Conversational search engines such as YouChat and Microsoft Copilot use large language models (LLMs) to generate responses to queries. It is only a small step to also let the same technology insert ads within the generated responses - instead of separately placing ads next to a response. Inserted ads would be reminiscent of native advertising and product placement, both of which are very effective forms of subtle and manipulative advertising. Considering the high computational costs associated with LLMs, for which providers need to develop sustainable business models, users of conversational search engines may very well be confronted with generated native ads in the near future. In this paper, we thus take a first step to investigate whether LLMs can also be used as a countermeasure, i.e., to block generated native ads. We compile the Webis Generated Native Ads 2024 dataset of queries and generated responses with automatically inserted ads, and evaluate whether LLMs or fine-tuned sentence transformers can detect the ads. In our experiments, the investigated LLMs struggle with the task but sentence transformers achieve precision and recall values above 0.9.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-30
# マルチスケール問題の解法における新しいパラダイム

A Novel Paradigm in Solving Multiscale Problems ( http://arxiv.org/abs/2402.05067v5 )

ライセンス: Link先を確認
Jing Wang, Zheng Li, Pengyu Lai, Rui Wang, Di Yang, Dewu Yang, Hui Xu, Wen-Quan Tao, (参考訳) マルチスケール現象は様々な科学領域にまたがって現れ、複雑なシステムのマルチスケール力学を正確に効果的にシミュレートする上で、ユビキタスな挑戦となる。 本稿では,大規模力学を独立にモデル化し,小規模力学をスレーブシステムとして扱うことにより,新しい疎結合解法を提案する。 スペクトル物理学インフォームドニューラルネットワーク(PINN)は、ニューラルネットワークにおけるマルチスケールダイナミクスの表現によって引き起こされる課題に対処し、小規模システムを効率的かつ正確な方法で特徴付けるために開発された。 この手法の有効性は, 1次元クラモット・シヴァシンスキー方程式, 2次元および3次元ナヴィエ・ストークス方程式を含む広範な数値実験により実証され, 流体力学の問題を解く上で, その汎用性を示す。 さらに,非一様メッシュ,複雑なジオメトリ,ノイズを伴う大規模データ,高次元の小型ダイナミックスなど,より複雑な問題への提案手法の適用についても検討する。 これらのシナリオに関する議論は、メソッドの機能と制限の包括的な理解に寄与します。 提案手法は,最小限の計算要求で大規模データの取得を可能にし,Spectral PINNによる小規模ダイナミックスの効率的かつ高精度なキャラクタリゼーションと組み合わせることで,マルチスケール現象に効果的に取り組む研究者にとって有益かつ有望なアプローチを提供する。

Multiscale phenomena manifest across various scientific domains, presenting a ubiquitous challenge in accurately and effectively simulating multiscale dynamics in complex systems. In this paper, a novel decoupling solving paradigm is proposed through modelling large-scale dynamics independently and treating small-scale dynamics as a slaved system. A Spectral Physics-informed Neural Network (PINN) is developed to characterize the small-scale system in an efficient and accurate way, addressing the challenges posed by the representation of multiscale dynamics in neural networks. The effectiveness of the method is demonstrated through extensive numerical experiments, including one-dimensional Kuramot-Sivashinsky equation, two- and three-dimensional Navier-Stokes equations, showcasing its versatility in addressing problems of fluid dynamics. Furthermore, we also delve into the application of the proposed approach to more complex problems, including non-uniform meshes, complex geometries, large-scale data with noise, and high-dimensional small-scale dynamics. The discussions about these scenarios contribute to a comprehensive understanding of the method's capabilities and limitations. By enabling the acquisition of large-scale data with minimal computational demands, coupled with the efficient and accurate characterization of small-scale dynamics via Spectral PINN, our approach offers a valuable and promising approach for researchers seeking to tackle multiscale phenomena effectively.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-30
# 非マルコフ量子ムペンバ効果

Non-Markovian Quantum Mpemba effect ( http://arxiv.org/abs/2402.05756v2 )

ライセンス: Link先を確認
David J. Strachan, Archak Purkayastha, Stephen R. Clark, (参考訳) 20世紀の再粘性のため、非平衡状態が平衡に近い状態よりも速く緩和することのできるムペンバ効果は古典的なシステムで広く研究され、近年量子システムにおいて大きな注目を集めている。 古典システムにおけるこの反直観的行動を説明する多くの理論は、記憶効果に依存している。 しかし、量子系では、Mpemba効果とメモリの関係は未解明のままである。 本研究では、一般の非マルコフ的開量子集合を考察し、マルコフ的量子力学に類似しない新しい量子Mpemba効果のクラスを明らかにする。 本質的には、開量子力学は有限記憶時間と一意の定常状態を持つ。 非マルコフ力学のため、システムが定常状態において初期化されているとしても、緩和するのに長い時間がかかる。 定常状態に達するのをはるかに速くする他の初期状態を見つけます。 最も注目すべきは、系が有限メモリ時間内で定常状態に達する初期状態が存在することを示し、従って定常性に最も早く緩和できることを示すことである。 電子貯水池に結合した量子ドット系が、弱い、中間的、強い結合、相互作用のない相互作用において、平衡状態および非平衡状態における効果を検証する。 我々の研究は、量子系における加速緩和の基礎となるリッチな物理学に関する新たな洞察を提供する。

Since it's rediscovery in the twentieth century, the Mpemba effect, where a far-from-equilibrium state may relax faster than a state closer to equilibrium, has been extensively studied in classical systems and has recently received significant attention in quantum systems. Many theories explaining this counter-intuitive behavior in classical systems rely on memory effects. However, in quantum systems, the relation between the Mpemba effect and memory has remained unexplored. In this work, we consider a general non-Markovian open quantum setting and reveal new classes of quantum Mpemba effects, with no analog in Markovian quantum dynamics. Generically, open quantum dynamics possess a finite memory time and a unique steady state. Due to non-Markovian dynamics, even if the system is initialized in the steady state it can take a long time to relax back. We find other initial states that reach the steady state much faster. Most notably, we demonstrate that there can be an initial state in which the system reaches the steady state within the finite memory time itself, therefore giving the fastest possible relaxation to stationarity. We verify the effect for quantum dot systems coupled to electronic reservoirs in equilibrium and non-equilibrium setups at weak, intermediate and strong coupling, and both with and without interactions. Our work provides new insights into the rich physics underlying accelerated relaxation in quantum systems.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-30
# 正規化流れによる分布外検出の特徴密度推定

Feature Density Estimation for Out-of-Distribution Detection via Normalizing Flows ( http://arxiv.org/abs/2402.06537v2 )

ライセンス: Link先を確認
Evan D. Cook, Marc-Antoine Lavoie, Steven L. Waslander, (参考訳) アウト・オブ・ディストリビューション(OOD)検出は,オープンワールド環境での学習システムの安全な配置において重要な課題である。 本研究では,OOD検出の正規化フローによる特徴密度推定の利用について検討し,OODサンプル選択における研究者の偏りを回避し,OODデータへの露出を必要としない完全に教師なしのアプローチを提案する。 これは、任意の事前訓練されたモデルに適用可能なポストホック法であり、密度閾値による分布外検出を行うために、軽量な補助正規化フローモデルを訓練する。 画像分類におけるOOD検出実験は、画像Net-1k 対 Textures の98.2% の AUROC を含む、フロートレーニングの1つのエポックしか持たない遠自由度データ検出の強い結果を示している。 さらに,事前学習モデルの特徴空間分布と提案手法の性能との関係についても検討する。 最後に、OOD検出に使用する正規化フローに悩まされている落とし穴のトレーニングに関する洞察を提供する。

Out-of-distribution (OOD) detection is a critical task for safe deployment of learning systems in the open world setting. In this work, we investigate the use of feature density estimation via normalizing flows for OOD detection and present a fully unsupervised approach which requires no exposure to OOD data, avoiding researcher bias in OOD sample selection. This is a post-hoc method which can be applied to any pretrained model, and involves training a lightweight auxiliary normalizing flow model to perform the out-of-distribution detection via density thresholding. Experiments on OOD detection in image classification show strong results for far-OOD data detection with only a single epoch of flow training, including 98.2% AUROC for ImageNet-1k vs. Textures, which exceeds the state of the art by 7.8%. We additionally explore the connection between the feature space distribution of the pretrained model and the performance of our method. Finally, we provide insights into training pitfalls that have plagued normalizing flows for use in OOD detection.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-30
# 動的学習者による確率変化の追跡

Tracking Changing Probabilities via Dynamic Learners ( http://arxiv.org/abs/2402.10142v2 )

ライセンス: Link先を確認
Omid Madani, (参考訳) 個別項目のストリームを入力とする予測子、学習者を考える。 予測者のタスクは、各時点において確率的多クラス予測であり、すなわち、0以上の候補項目を出力して次にどの項目が発生するかを予測し、その後、実際の項目が明らかにされ、予測者がこの観察から学習する。 確率を出力するために、予測器は見たアイテムの比率を追跡する。 ストリームは非有界であり、予測器は限られた空間しか持たず、効率的な予測と更新技術を求めている。 さらに、非定常性があり、アイテムの根底にある周波数は、時間によって大きく変化する可能性がある。 例えば、新しいアイテムが出現し始め、最近の頻繁なアイテムが再び発生しなくなる可能性がある。 空間有界な予測器は、これらの項目に対して十分に高い周波数(すなわち、有理な項目)でのみ確率を与える必要がある。 この問題は予測ゲームの設定において動機付けられており、概念が予測子と予測子の両方として機能し、概念の集合が時間とともに成長し、新しい概念が生成され、使用されるにつれて非定常性をもたらす自己教師型学習システムである。 我々は、そのような非定常性に対応するように設計されたスパース・マルチクラス移動平均手法をタイムリーに開発する。 1つのテクニックは指数移動平均(EMA)に基づいており、もう1つは数個のスナップショットのキューに基づいている。 この組み合わせ、特に動的予測と固有学習率のサポートは、変化の検出と収束の高速化という面で有利であることを示す。

Consider a predictor, a learner, whose input is a stream of discrete items. The predictor's task, at every time point, is probabilistic multiclass prediction, i.e., to predict which item may occur next by outputting zero or more candidate items, each with a probability, after which the actual item is revealed and the predictor learns from this observation. To output probabilities, the predictor keeps track of the proportions of the items it has seen. The stream is unbounded and the predictor has finite limited space and we seek efficient prediction and update techniques: the set of items is unknown to the predictor and their totality can also grow unbounded. Moreover, there is non-stationarity: the underlying frequencies of items may change, substantially, from time to time. For instance, new items may start appearing and a few recently frequent items may cease to occur again. The predictor, being space-bounded, need only provide probabilities for those items with (currently) sufficiently high frequency, i.e., the salient items. This problem is motivated in the setting of prediction games, a self-supervised learning regime where concepts serve as both the predictors and the predictands, and the set of concepts grows over time, resulting in non-stationarities as new concepts are generated and used. We develop sparse multiclass moving average techniques designed to respond to such non-stationarities in a timely manner. One technique is based on the exponentiated moving average (EMA) and another is based on queuing a few count snapshots. We show that the combination, and in particular supporting dynamic predictand-specific learning rates, offers advantages in terms of faster change detection and convergence.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-30
# 大規模言語モデルに対するFact-Checkingのための微調整変圧器のサプライズ効果

Surprising Efficacy of Fine-Tuned Transformers for Fact-Checking over Larger Language Models ( http://arxiv.org/abs/2402.12147v3 )

ライセンス: Link先を確認
Vinay Setty, (参考訳) 本稿では,90以上の言語をカバーする実世界の文脈において,エンドツーエンドのファクトチェックパイプラインを確立する上での課題について検討する。 GPT-4, GPT-3.5-Turbo, Mistral-7bのような大規模言語モデル(LLM)よりも優れた性能が得られることを示す。 しかし, LLMは, 証拠検索のための質問分解などの生成タスクにおいて優れていることを示す。 広範囲な評価を通じて,多言語設定におけるファクトチェックのための微調整モデルの有効性と,数量を含む複雑なクレームを示す。

In this paper, we explore the challenges associated with establishing an end-to-end fact-checking pipeline in a real-world context, covering over 90 languages. Our real-world experimental benchmarks demonstrate that fine-tuning Transformer models specifically for fact-checking tasks, such as claim detection and veracity prediction, provide superior performance over large language models (LLMs) like GPT-4, GPT-3.5-Turbo, and Mistral-7b. However, we illustrate that LLMs excel in generative tasks such as question decomposition for evidence retrieval. Through extensive evaluation, we show the efficacy of fine-tuned models for fact-checking in a multilingual setting and complex claims that include numerical quantities.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-30
# Universal Physics Transformers: ニューラルネットワークを効率的にスケールするためのフレームワーク

Universal Physics Transformers: A Framework For Efficiently Scaling Neural Operators ( http://arxiv.org/abs/2402.12365v2 )

ライセンス: Link先を確認
Benedikt Alkin, Andreas Fürst, Simon Schmid, Lukas Gruber, Markus Holzleitner, Johannes Brandstetter, (参考訳) 物理代理モデルとして機能するニューラル作用素は、最近、関心が高まっている。 ニューラルネットワークを大規模で複雑なシミュレーションにスケールするための効率的な方法は何か – 最も重要なのは,さまざまなタイプのシミュレーションデータセットを考慮することだ。 たとえシステムの基盤となるダイナミクスが似ているとしても、アプリケーション間で異なるテクニックが使用されているため、これは特に興味深い。 トランスフォーマーの柔軟性はドメイン間の統一アーキテクチャを有効にしているが、ニューラル演算子は主に問題固有の設計に従う。 本稿では,幅広い時空間問題に対する効率的かつ統一的な学習パラダイムであるUniversal Physics Transformers(UPTs)を紹介する。 UPTはグリッドやパーティクルベースの潜在構造を使わずに動作し、メッシュやパーティクル間の柔軟性とスケーラビリティを実現する。 UPTは、逆符号化と復号化技術によって強調される潜在空間のダイナミクスを効率的に伝播する。 最後に、UTTは時空の任意の時点における潜在空間表現のクエリを可能にする。 メッシュ型流体シミュレーション, 定常レイノルズシミュレーション, ナヴィエ・ストークスシミュレーション, ラグランジアン動力学におけるUTTの多種多様な適用性と有効性を示す。

Neural operators, serving as physics surrogate models, have recently gained increased interest. With ever increasing problem complexity, the natural question arises: what is an efficient way to scale neural operators to larger and more complex simulations - most importantly by taking into account different types of simulation datasets. This is of special interest since, akin to their numerical counterparts, different techniques are used across applications, even if the underlying dynamics of the systems are similar. Whereas the flexibility of transformers has enabled unified architectures across domains, neural operators mostly follow a problem specific design, where GNNs are commonly used for Lagrangian simulations and grid-based models predominate Eulerian simulations. We introduce Universal Physics Transformers (UPTs), an efficient and unified learning paradigm for a wide range of spatio-temporal problems. UPTs operate without grid- or particle-based latent structures, enabling flexibility and scalability across meshes and particles. UPTs efficiently propagate dynamics in the latent space, emphasized by inverse encoding and decoding techniques. Finally, UPTs allow for queries of the latent space representation at any point in space-time. We demonstrate diverse applicability and efficacy of UPTs in mesh-based fluid simulations, and steady-state Reynolds averaged Navier-Stokes simulations, and Lagrangian-based dynamics.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-30
# MVDiffusion++:シングル・スパース・ビュー3次元オブジェクト再構成のための高分解能多視点拡散モデル

MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction ( http://arxiv.org/abs/2402.12712v3 )

ライセンス: Link先を確認
Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan, (参考訳) 本稿では,3次元オブジェクト再構成のためのニューラルネットワークMVDiffusion++を提案する。 MVDiffusion++は2つの驚くほどシンプルなアイデアで優れた柔軟性とスケーラビリティを実現します。 1) カメラポーズ情報を明示的に使用せずに、任意の数の条件および生成ビューにまたがる3次元の一貫性を学習する2次元潜伏特徴間の標準的な自己意識を学習する「目的なしアーキテクチャ」。 2)「ビュードロップアウト戦略」は、トレーニング中にかなりの数のアウトプットビューを捨て、トレーニング時のメモリフットプリントを削減し、テスト時に高精細で高精細なビュー合成を可能にする。 我々はObjaverseをトレーニングに使用し、Google Scanned Objectsを標準的な新しいビュー合成と3D再構成のメトリクスで評価し、MVDiffusion++は現在の最先端技術よりも大幅に優れています。 また,MVDiffusion++とテキスト・ツー・イメージ生成モデルを組み合わせることで,テキスト・ツー・3Dアプリケーションの例を示す。 プロジェクトのページはhttps://mvdiffusion-plus.github.ioにある。

This paper presents a neural architecture MVDiffusion++ for 3D object reconstruction that synthesizes dense and high-resolution views of an object given one or a few images without camera poses. MVDiffusion++ achieves superior flexibility and scalability with two surprisingly simple ideas: 1) A ``pose-free architecture'' where standard self-attention among 2D latent features learns 3D consistency across an arbitrary number of conditional and generation views without explicitly using camera pose information; and 2) A ``view dropout strategy'' that discards a substantial number of output views during training, which reduces the training-time memory footprint and enables dense and high-resolution view synthesis at test time. We use the Objaverse for training and the Google Scanned Objects for evaluation with standard novel view synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly outperforms the current state of the arts. We also demonstrate a text-to-3D application example by combining MVDiffusion++ with a text-to-image generative model. The project page is at https://mvdiffusion-plusplus.github.io.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-30
# 脳波を用いたアルツハイマー病分類のためのスペクトル・時間・空間情報のバランシング

Balancing Spectral, Temporal and Spatial Information for EEG-based Alzheimer's Disease Classification ( http://arxiv.org/abs/2402.13523v2 )

ライセンス: Link先を確認
Stephan Goerttler, Fei He, Min Wu, (参考訳) 今後の治療の見通しは、アルツハイマー病(AD)の費用対効果スクリーニングの開発を保証している。 この点において有望な候補は脳波撮影(EEG)であり、最も経済的な画像モダリティの1つである。 脳波分析における最近の取り組みは、グラフ信号処理やグラフニューラルネットワークといった新しいフレームワークを用いて、空間情報の活用へと移行している。 そこで本研究では,AD分類における各次元の比率を変化させることにより,スペクトル情報や時間情報に対する空間情報の重要度について検討する。 そこで我々は,2つの日常的な脳波データセット上で,様々な次元分解能構成を体系的に検証した。 その結果,空間情報は時間情報よりも重要であり,スペクトル情報として等しく有用であることがわかった。 より大きな第2のデータセットでは、スペクトルを空間情報に置き換えることで精度が1.1%向上し、脳波に基づくAD分類における空間情報の重要性が強調された。 我々は、解像度に基づく特徴抽出がAD分類を特に改善する可能性があり、多変量信号分類が一般的であると主張している。

The prospect of future treatment warrants the development of cost-effective screening for Alzheimer's disease (AD). A promising candidate in this regard is electroencephalography (EEG), as it is one of the most economic imaging modalities. Recent efforts in EEG analysis have shifted towards leveraging spatial information, employing novel frameworks such as graph signal processing or graph neural networks. Here, we investigate the importance of spatial information relative to spectral or temporal information by varying the proportion of each dimension for AD classification. To do so, we systematically test various dimension resolution configurations on two routine EEG datasets. Our findings show that spatial information is more important than temporal information and equally valuable as spectral information. On the larger second dataset, substituting spectral with spatial information even led to an increase of 1.1% in accuracy, which emphasises the importance of spatial information for EEG-based AD classification. We argue that our resolution-based feature extraction has the potential to improve AD classification specifically, and multivariate signal classification generally.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# 役割に固執! 大規模言語モデルにおける個人的価値表現の文脈依存性と安定性

Stick to Your Role! Context-dependence and Stability of Personal Value Expression in Large Language Models ( http://arxiv.org/abs/2402.14846v3 )

ライセンス: Link先を確認
Grgur Kovač, Rémy Portelas, Masataka Sawayama, Peter Ford Dominey, Pierre-Yves Oudeyer, (参考訳) ベンチマークや心理調査でLLM(Large Language Models)を研究する標準的な方法は、同様の最小限のコンテキスト(例えば複数の選択質問)から多くの異なるクエリを提供することである。 しかし、LLMの高度にコンテキストに依存した性質のため、そのような最小限のコンテキスト評価からの結論は、デプロイ中のモデルの振る舞い(多くの新しいコンテキストに露呈する)についてほとんど情報がないかもしれない。 我々は、文脈依存(特に価値安定性)は、LLMの特定の特性を研究し、LLMの比較の別の次元として(認知能力、知識、モデルサイズなど)使用されるべきであると論じる。 本稿では,標準的な心理質問紙(PVQ)と行動下流タスクを用いて,異なる文脈(異なる話題に関する模擬会話)における価値表現の安定性について事例研究を行った。 心理学的手法を用いて,集団(対人)レベルでのランク順の安定性,個人(対人)レベルでのIpsative stabilityについて検討した。 2つの設定(LLMに特定のペルソナをシミュレートするよう指示しない)、2つのシミュレートされた集団、そして3つの下流タスクについて検討する。 LLaMa-2 や Phi よりも混合系,ミストラル系, GPT-3.5 および Qwen 系の方が安定である。 これらの傾向の整合性は、いくつかのモデルが他のモデルよりも高い安定性を示し、導入した方法論ツールのセットで価値の安定性を推定できることを示している。 特定のペルソナをシミュレートするように指示されると、LLMは低いランク階安定性を示し、会話の長さによってさらに減少する。 これは、異なるペルソナをコヒーレントにシミュレートするLSMに関する将来の研究の必要性を強調している。 本稿は、その方向性の基本的なステップを提供し、我々の知る限り、LLMにおける価値の安定性に関する最初の研究である。

The standard way to study Large Language Models (LLMs) with benchmarks or psychology questionnaires is to provide many different queries from similar minimal contexts (e.g. multiple choice questions). However, due to LLMs' highly context-dependent nature, conclusions from such minimal-context evaluations may be little informative about the model's behavior in deployment (where it will be exposed to many new contexts). We argue that context-dependence (specifically, value stability) should be studied a specific property of LLMs and used as another dimension of LLM comparison (alongside others such as cognitive abilities, knowledge, or model size). We present a case-study on the stability of value expression over different contexts (simulated conversations on different topics) as measured using a standard psychology questionnaire (PVQ) and on behavioral downstream tasks. Reusing methods from psychology, we study Rank-order stability on the population (interpersonal) level, and Ipsative stability on the individual (intrapersonal) level. We consider two settings (with and without instructing LLMs to simulate particular personas), two simulated populations, and three downstream tasks. We observe consistent trends in the stability of models and model families - Mixtral, Mistral, GPT-3.5 and Qwen families are more stable than LLaMa-2 and Phi. The consistency of these trends implies that some models exhibit higher value-stability than others, and that value stability can be estimated with the set of introduced methodological tools. When instructed to simulate particular personas, LLMs exhibit low Rank-Order stability, which further diminishes with conversation length. This highlights the need for future research on LLMs that coherently simulate different personas. This paper provides a foundational step in that direction, and, to our knowledge, it is the first study of value stability in LLMs.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# CURSOR: CUR分解によるスケーラブル混合次ハイパーグラフマッチング

CURSOR: Scalable Mixed-Order Hypergraph Matching with CUR Decomposition ( http://arxiv.org/abs/2402.16594v4 )

ライセンス: Link先を確認
Qixuan Zheng, Ming Zhang, Hong Yan, (参考訳) 高い精度を達成するために、ハイパーグラフマッチングアルゴリズムは計算資源の指数関数的な増加を必要とする。 最近のkd-tree-based Near Near Near neighbor (ANN) 法は、互換性テンソルの空間性にもかかわらず、大規模グラフマッチングには網羅的な計算が必要である。 本研究は, CURテンソル分解を利用して, 高速なハイパーグラフマッチングのための第2および第3次ハイパーグラフマッチングフレームワーク(CURSOR)を導入する。 CURベースの2次グラフマッチングアルゴリズムを用いて粗マッチングを行い、その後、ファイバーCURベースのテンソル生成法であるCURSORのコアは、初期2次マッチング結果を利用して、互換性テンソルのエントリを直接計算する。 これは時間の複雑さとテンソル密度を著しく減少させる。 特にスパーステンソルに適した確率緩和ラベリング(PRL)ベースのマッチングアルゴリズムを開発した。 大規模合成データセットと広く評価されたベンチマークセットの実験結果は、既存の手法よりもCURSORの方が優れていることを示す。 CURSORのテンソル生成法は,既存のハイパーグラフマッチング法とシームレスに統合することにより,性能の向上と計算コストの低減を実現している。

To achieve greater accuracy, hypergraph matching algorithms require exponential increases in computational resources. Recent kd-tree-based approximate nearest neighbor (ANN) methods, despite the sparsity of their compatibility tensor, still require exhaustive calculations for large-scale graph matching. This work utilizes CUR tensor decomposition and introduces a novel cascaded second and third-order hypergraph matching framework (CURSOR) for efficient hypergraph matching. A CUR-based second-order graph matching algorithm is used to provide a rough match, and then the core of CURSOR, a fiber-CUR-based tensor generation method, directly calculates entries of the compatibility tensor by leveraging the initial second-order match result. This significantly decreases the time complexity and tensor density. A probability relaxation labeling (PRL)-based matching algorithm, especially suitable for sparse tensors, is developed. Experiment results on large-scale synthetic datasets and widely-adopted benchmark sets demonstrate the superiority of CURSOR over existing methods. The tensor generation method in CURSOR can be integrated seamlessly into existing hypergraph matching methods to improve their performance and lower their computational costs.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# PANDAS: プロトタイプベースの新しいクラス発見と検出

PANDAS: Prototype-based Novel Class Discovery and Detection ( http://arxiv.org/abs/2402.17420v2 )

ライセンス: Link先を確認
Tyler L. Hayes, César R. de Souza, Namil Kim, Jiwon Kim, Riccardo Volpi, Diane Larlus, (参考訳) オブジェクト検出器は通常、固定されたクラスのセットで一度、あるいはすべてトレーニングされる。 しかし、このクローズドワールドの仮定は実際には非現実的であり、検出器が野生に展開された後に必然的に新しいクラスが出現する。 そこで本研究では,一連のベースクラスのために訓練された検出器を拡張して,それを実現する方法について検討する。 一 新規な授業の存在を見極め、 二 自動的にそのレパートリーを充実させ、これらの新たに発見されたクラスをベースクラスと共に検出することができること。 本研究では,新しいクラス発見・検出手法であるPANDASを提案する。 ラベルのないデータから新しいクラスを表すクラスタを発見し、プロトタイプで古いクラスと新しいクラスを表現する。 推論中、距離ベースの分類器はこれらのプロトタイプを使用して検出された各オブジェクトインスタンスにラベルを割り当てる。 私たちの方法の単純さによって、広く適用できます。 VOC 2012 と COCO-to-LVIS ベンチマークにおける PANDAS の有効性を実験的に検証した。 このタスクは、コンピュータ的により手頃な価格で、最先端のタスクに対して好適に機能する。

Object detectors are typically trained once and for all on a fixed set of classes. However, this closed-world assumption is unrealistic in practice, as new classes will inevitably emerge after the detector is deployed in the wild. In this work, we look at ways to extend a detector trained for a set of base classes so it can i) spot the presence of novel classes, and ii) automatically enrich its repertoire to be able to detect those newly discovered classes together with the base ones. We propose PANDAS, a method for novel class discovery and detection. It discovers clusters representing novel classes from unlabeled data, and represents old and new classes with prototypes. During inference, a distance-based classifier uses these prototypes to assign a label to each detected object instance. The simplicity of our method makes it widely applicable. We experimentally demonstrate the effectiveness of PANDAS on the VOC 2012 and COCO-to-LVIS benchmarks. It performs favorably against the state of the art for this task while being computationally more affordable.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# 未知制約を用いた最適化のための制約サンプリングとしての拡散モデル

Diffusion Models as Constrained Samplers for Optimization with Unknown Constraints ( http://arxiv.org/abs/2402.18012v2 )

ライセンス: Link先を確認
Lingkai Kong, Yuanqi Du, Wenhao Mu, Kirill Neklyudov, Valentin De Bortoli, Haorui Wang, Dongxia Wu, Aaron Ferber, Yi-An Ma, Carla P. Gomes, Chao Zhang, (参考訳) 実世界の最適化問題に対処することは、分析対象関数や制約が利用できない場合に特に困難になる。 多くの研究が未知の目的の問題に対処しているが、限定的な研究は、実現可能性の制約が明示的に与えられていないシナリオに焦点を当てている。 これらの制約を見渡すと、実際には非現実的な急激な解決につながる可能性がある。 このような未知の制約に対処するため、拡散モデルを用いてデータ多様体内で最適化を行う。 データ多様体に最適化過程を制約するために、目的関数で定義されるボルツマン分布と拡散モデルで学習したデータ分布からサンプリング問題として元の最適化問題を再構成する。 サンプリング効率を向上させるために, ウォームアップのための誘導拡散プロセスから始まる2段階のフレームワークを提案する。 理論的解析により、初期段階は実現可能な解に焦点をあてた分布をもたらすことが示され、それによって後半段階のより優れた初期化が得られる。 合成データセット、実世界の6つのブラックボックス最適化データセット、および多目的最適化データセットに関する総合的な実験により、我々の手法は、過去の最先端のベースラインでより良い、あるいは同等のパフォーマンスを達成することを示す。

Addressing real-world optimization problems becomes particularly challenging when analytic objective functions or constraints are unavailable. While numerous studies have addressed the issue of unknown objectives, limited research has focused on scenarios where feasibility constraints are not given explicitly. Overlooking these constraints can lead to spurious solutions that are unrealistic in practice. To deal with such unknown constraints, we propose to perform optimization within the data manifold using diffusion models. To constrain the optimization process to the data manifold, we reformulate the original optimization problem as a sampling problem from the product of the Boltzmann distribution defined by the objective function and the data distribution learned by the diffusion model. To enhance sampling efficiency, we propose a two-stage framework that begins with a guided diffusion process for warm-up, followed by a Langevin dynamics stage for further correction. Theoretical analysis shows that the initial stage results in a distribution focused on feasible solutions, thereby providing a better initialization for the later stage. Comprehensive experiments on a synthetic dataset, six real-world black-box optimization datasets, and a multi-objective optimization dataset show that our method achieves better or comparable performance with previous state-of-the-art baselines.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# 相反する例:自由の伝達性とステルスネスの改善

Adversarial Example Soups: Improving Transferability and Stealthiness for Free ( http://arxiv.org/abs/2402.18370v2 )

ライセンス: Link先を確認
Bo Yang, Hengwei Zhang, Jindong Wang, Yulong Yang, Chenhao Lin, Chao Shen, Zhengyu Zhao, (参考訳) 転送可能な敵の例は、その内部知識を知らずにターゲットモデルを誤認できるため、現実的なセキュリティリスクを引き起こす。 転送可能性の最大化のための従来のレシピは、最適化パイプラインで得られた全てのものから最適な逆例のみを保持することである。 本稿では,この慣例に初めて疑問を呈し,捨てられた準最適対向例を再利用し,転送可能性を高めることを実証する。 具体的には,AES-tune を用いた高パラメータチューニングにおける破棄された逆数例の平均化と安定性試験のための AES-rand を提案する。 さらに,AESは「モデルスープ」にインスパイアされ,複数の微調整モデルの平均重みを推定時間を増やすことなく精度を向上する。 大規模な実験により、AESのグローバルな効果を検証し、10の最先端のトランスファー攻撃とそれらの組み合わせを最大13%増やし、10の多様な(防御的な)ターゲットモデルと比較した。 また、AESを他のタイプに一般化する可能性を示す。 AESの有望な副産物は、摂動分散が自然に減少するため、敵例のステルス性の改善である。

Transferable adversarial examples cause practical security risks since they can mislead a target model without knowing its internal knowledge. A conventional recipe for maximizing transferability is to keep only the optimal adversarial example from all those obtained in the optimization pipeline. In this paper, for the first time, we question this convention and demonstrate that those discarded, sub-optimal adversarial examples can be reused to boost transferability. Specifically, we propose ``Adversarial Example Soups'' (AES), with AES-tune for averaging discarded adversarial examples in hyperparameter tuning and AES-rand for stability testing. In addition, our AES is inspired by ``model soups'', which averages weights of multiple fine-tuned models for improved accuracy without increasing inference time. Extensive experiments validate the global effectiveness of our AES, boosting 10 state-of-the-art transfer attacks and their combinations by up to 13% against 10 diverse (defensive) target models. We also show the possibility of generalizing AES to other types, e.g., directly averaging multiple in-the-wild adversarial examples that yield comparable success. A promising byproduct of AES is the improved stealthiness of adversarial examples since the perturbation variances are naturally reduced.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# EAMA : エンティティ対応マルチモーダルアライメントに基づくニューズ画像キャプションのためのアプローチ

EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning ( http://arxiv.org/abs/2402.19404v3 )

ライセンス: Link先を確認
Junzhe Zhang, Huixuan Zhang, Xunjian Yin, Xiaojun Wan, (参考訳) ニュース画像キャプションは、ニュース画像と関連するニュース記事とともに、エンティティに富んだ情報キャプションを生成するモデルを必要とする。 MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクに対処する際、目覚ましい機能を示したが、現在のMLLMは、ニュース画像キャプションタスクのエンティティ情報に制限がある。 また、MLLMは長い入力を処理できるが、高品質なニュース画像キャプションを生成するには、テキスト入力情報の十分性と簡潔さのトレードオフが必要である。 MLLMの可能性を探求し,我々が発見した問題に対処するために,ニュース画像キャプションのためのEntity-Aware Multimodal Alignmentに基づくアプローチを提案する。 我々はまず,バランストレーニング戦略を通じてMLLMを2つの追加アライメントタスク – エンティティ・アウェア・センテンス選択タスクとエンティティ選択タスク,およびNews Image Captioningタスク – に整合させ,マルチモーダルなエンティティ情報を扱う能力を高める。 整列MLLMは、明示的に抽出するエンティティ関連情報を利用して、ニュース画像キャプションを生成しながらテキスト入力を補完する。 提案手法は,GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアよりも優れた結果が得られる。

News image captioning requires model to generate an informative caption rich in entities, with the news image and the associated news article. Though Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in addressing various vision-language tasks, our research finds that current MLLMs still bear limitations in handling entity information on news image captioning task. Besides, while MLLMs have the ability to process long inputs, generating high-quality news image captions still requires a trade-off between sufficiency and conciseness of textual input information. To explore the potential of MLLMs and address problems we discovered, we propose : an Entity-Aware Multimodal Alignment based approach for news image captioning. Our approach first aligns the MLLM through Balance Training Strategy with two extra alignment tasks: Entity-Aware Sentence Selection task and Entity Selection task, together with News Image Captioning task, to enhance its capability in handling multimodal entity information. The aligned MLLM will utilizes the additional entity-related information it explicitly extracts to supplement its textual input while generating news image captions. Our approach achieves better results than all previous models in CIDEr score on GoodNews dataset (72.33 -> 88.39) and NYTimes800k dataset (70.83 -> 85.61).
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# HyperSDFusion:3次元テキスト2形状生成のための言語と幾何学の階層構造をブリッジする

HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation ( http://arxiv.org/abs/2403.00372v3 )

ライセンス: Link先を確認
Zhiying Leng, Tolga Birdal, Xiaohui Liang, Federico Tombari, (参考訳) テキストから3次元形状を生成することは3次元表現学習の基本的な課題である。 テキスト形状のペアは階層構造を持ち、例えば「椅子」のような一般的なテキストは椅子のすべての3次元形状をカバーし、より詳細なプロンプトはより具体的な形状を参照している。 さらに、テキストと3Dの形状は本質的に階層構造である。 しかし、SDFusionのような既存のText2Shapeメソッドはそれを利用しない。 本研究では,与えられたテキストから3次元形状を生成する2分岐拡散モデルHyperSDFusionを提案する。 双曲空間は階層データを扱うのに適したため,双曲空間におけるテキストと3次元形状の階層的表現を学習することを提案する。 まず、双曲型テキスト画像エンコーダを導入し、双曲型空間におけるテキストの逐次的およびマルチモーダル的階層的特徴を学習する。 さらに、双曲空間におけるテキストの階層的特徴を学習するために、双曲的テキストグラフ畳み込みモジュールを設計する。 テキスト機能を完全に活用するために,テキスト機能を3次元特徴空間に埋め込むデュアルブランチ構造を導入する。 最終的に、生成した3次元形状に階層構造を持たせるために、双曲的階層的損失を考案する。 本手法は,テキスト・ツー・シェイプ生成のための双曲的階層表現を初めて探求する手法である。 既存のテキスト対形状のペアデータセットであるText2Shapeの実験結果は、最先端の結果を得た。 HyperSDFusion.github.ioで実装をリリースします。

3D shape generation from text is a fundamental task in 3D representation learning. The text-shape pairs exhibit a hierarchical structure, where a general text like ``chair" covers all 3D shapes of the chair, while more detailed prompts refer to more specific shapes. Furthermore, both text and 3D shapes are inherently hierarchical structures. However, existing Text2Shape methods, such as SDFusion, do not exploit that. In this work, we propose HyperSDFusion, a dual-branch diffusion model that generates 3D shapes from a given text. Since hyperbolic space is suitable for handling hierarchical data, we propose to learn the hierarchical representations of text and 3D shapes in hyperbolic space. First, we introduce a hyperbolic text-image encoder to learn the sequential and multi-modal hierarchical features of text in hyperbolic space. In addition, we design a hyperbolic text-graph convolution module to learn the hierarchical features of text in hyperbolic space. In order to fully utilize these text features, we introduce a dual-branch structure to embed text features in 3D feature space. At last, to endow the generated 3D shapes with a hierarchical structure, we devise a hyperbolic hierarchical loss. Our method is the first to explore the hyperbolic hierarchical representation for text-to-shape generation. Experimental results on the existing text-to-shape paired dataset, Text2Shape, achieved state-of-the-art results. We release our implementation under HyperSDFusion.github.io.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# リラクサメトリーによる定量的心磁気共鳴画像再構成

Relaxometry Guided Quantitative Cardiac Magnetic Resonance Image Reconstruction ( http://arxiv.org/abs/2403.00549v2 )

ライセンス: Link先を確認
Yidong Zhao, Yi Zhang, Qian Tao, (参考訳) 深層学習に基づく手法は、MRI(MRI)再構成のための優れた性能を達成し、多くの臨床応用において高速イメージングを可能にしている。 従来の手法では、正規化項としてイメージを学習するために畳み込みネットワークを用いていた。 定量的MRIでは、核磁気共鳴緩和法(英語版)の物理モデルが知られており、画像再構成のための追加の事前知識を提供する。 しかし、従来の再構成ネットワークは、空間領域の事前知識の学習に限られており、事前の緩和法を無視している。 そこで本研究では,MRI物理の空間的事前学習のためのリラクソメトリガイド付き定量的MRI再構成フレームワークを提案する。 さらに,U-Netを用いたリカレント変分ネットワーク (RVN) と変分ネットワーク (VN) の2つの人気再構成バックボーンの性能評価を行った。 実験により,提案手法は定量的MRI再構成において高い有望な結果が得られることが示された。

Deep learning-based methods have achieved prestigious performance for magnetic resonance imaging (MRI) reconstruction, enabling fast imaging for many clinical applications. Previous methods employ convolutional networks to learn the image prior as the regularization term. In quantitative MRI, the physical model of nuclear magnetic resonance relaxometry is known, providing additional prior knowledge for image reconstruction. However, traditional reconstruction networks are limited to learning the spatial domain prior knowledge, ignoring the relaxometry prior. Therefore, we propose a relaxometry-guided quantitative MRI reconstruction framework to learn the spatial prior from data and the relaxometry prior from MRI physics. Additionally, we also evaluated the performance of two popular reconstruction backbones, namely, recurrent variational networks (RVN) and variational networks (VN) with U- Net. Experiments demonstrate that the proposed method achieves highly promising results in quantitative MRI reconstruction.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# 法医学的3次元フィンガープリントにおける安全な情報埋め込みと抽出

Secure Information Embedding and Extraction in Forensic 3D Fingerprinting ( http://arxiv.org/abs/2403.04918v2 )

ライセンス: Link先を確認
Canran Wang, Jinwen Wang, Mi Zhou, Vinh Pham, Senyue Hao, Chao Zhou, Ning Zhang, Netanel Raviv, (参考訳) 3Dプリンティングの流行は、インターネットアクセスとコモディティプリンタが追跡不能な銃器、キー、偽造品などを製造できるため、公衆の安全に重大なリスクをもたらす。 政府当局がこれらの新たなセキュリティ脅威と戦うのを助けるために、情報を識別する3Dプリントのタグ付けにいくつかのアプローチが取られている。 指紋として知られるこの情報は、様々なビット埋め込み技術を用いてオブジェクトに書き込まれ、例えば、溶融熱可塑性層の高さの変化や、磁気特性の異なる金属粉末の堆積などである。 しかし、現実の法医学的な環境でのこれらの手法の実践性は、この問題の逆境性によって妨げられている。 つまり、3Dプリンティングのプロセスは、いかなる法執行機関にも及ばず、印刷のあらゆる側面を制御し、印刷物を保有する敵である。 これらの脅威に対処するため、法執行機関は指紋認証を強制する3Dプリンターの製造を規制し、法医学的な調査中に敵に改ざんされた遺物(例:壊れた3Dプリント銃の破片)を収集することができる。 そのため、敵が印刷を行っても指紋を抽出できるように指紋認証技術を考案することが重要である。 そこで我々は,3Dプリントにおける法医学的フィンガープリントの相反する性質に対処する指紋抽出フレームワークであるSIDE(Secure Information Embedding and extract)を,セキュアな情報埋め込みとセキュアな情報抽出の両方を提供して提案する。

The prevalence of 3D printing poses a significant risk to public safety, as any individual with internet access and a commodity printer is able to produce untraceable firearms, keys, counterfeit products, etc. To aid government authorities in combating these new security threats, several approaches have been taken to tag 3D-prints with identifying information. Known as fingerprints, this information is written into the object using various bit embedding techniques; examples include varying the height of the molten thermoplastic layers, and depositing metallic powder with different magnetic properties. Yet, the practicality of theses techniques in real-world forensic settings is hindered by the adversarial nature of this problem. That is, the 3D-printing process is out of reach of any law enforcement agencies; it is the adversary who controls all aspects of printing and possesses the printed object. To combat these threats, law enforcement agencies can regulate the manufacturing of 3D printers, on which they may enforce a fingerprinting scheme, and collect adversarially tampered remains (e.g., fragments of a broken 3D-printed firearm) during forensic investigation. Therefore, it is important to devise fingerprinting techniques so that the fingerprint could be extracted even if printing is carried out by the adversary. To this end, we present SIDE (Secure Information Embedding and Extraction), a fingerprinting framework that tackles the adversarial nature of forensic fingerprinting in 3D prints by offering both secure information embedding and secure information extraction.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# アンタングル表現による医学的音声症状の分類

Medical Speech Symptoms Classification via Disentangled Representation ( http://arxiv.org/abs/2403.05000v3 )

ライセンス: Link先を確認
Jianzong Wang, Pengcheng Li, Xulong Zhang, Ning Cheng, Jing Xiao, (参考訳) Intentは既存の作品における音声言語を理解するために定義されている。 医学的音声にかかわるテキストの特徴と音響的特徴には意図が含まれており,症状の診断に重要である。 本稿では,テキスト・音響データから意図と内容の表現を分離して分類するDRSCという医療用音声分類モデルを提案する。 テキスト領域とメル・スペクトログラム領域のインテント表現をインテントエンコーダを介して抽出し、2つの交換により再構成されたテキスト特徴とメル・スペクトログラム特徴を得る。 2つのドメインからの意図を共同表現に結合した後、統合意図表現は分類のための決定層に供給される。 実験の結果,25種類の医学症状の検出において平均95%の精度が得られた。

Intent is defined for understanding spoken language in existing works. Both textual features and acoustic features involved in medical speech contain intent, which is important for symptomatic diagnosis. In this paper, we propose a medical speech classification model named DRSC that automatically learns to disentangle intent and content representations from textual-acoustic data for classification. The intent representations of the text domain and the Mel-spectrogram domain are extracted via intent encoders, and then the reconstructed text feature and the Mel-spectrogram feature are obtained through two exchanges. After combining the intent from two domains into a joint representation, the integrated intent representation is fed into a decision layer for classification. Experimental results show that our model obtains an average accuracy rate of 95% in detecting 25 different medical symptoms.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# CLEAR: 事前訓練された言語モデルを持つクロストランスフォーマーは、個人属性認識と検索に必要なもの

CLEAR: Cross-Transformers with Pre-trained Language Model is All you need for Person Attribute Recognition and Retrieval ( http://arxiv.org/abs/2403.06119v2 )

ライセンス: Link先を確認
Doanh C. Bui, Thinh V. Le, Ba Hung Ngo, Tae Jong Choi, (参考訳) 属性認識と属性ベースの検索は、人間中心の2つのコアタスクである。 認識タスクでは、人物の外観に応じて属性を指定するのが課題であり、検索タスクは属性クエリに基づいて人物のマッチングを検索する。 認識タスクと検索タスクの間には大きな関係がある。 本研究では,人的属性認識に十分頑健なネットワークが存在する場合,検索タスクの性能向上に適応できることを実証する。 検索タスクで対処する必要があるもう1つの問題は、属性クエリと人のイメージの間のモダリティギャップである。 そこで本稿では,両課題に対処する統合ネットワークであるCLEARを提案する。 個人属性認識のための頑健なクロストランスフォーマーネットワークを導入する。 さらに,事前学習された言語モデルを活用することで,属性クエリの擬似記述を構築し,いくつかの追加パラメータのみをトレーニングするための効果的なトレーニング戦略を導入し,検索タスクの処理を容易にする。 最後に、統一CLEARモデルをPETA、PA100K、Market-1501、RAPv2、UPAR-2024の5つのベンチマークで評価する。 ベルとホイッスルがなければ、CLEARは両タスクの最先端のパフォーマンスや競争成績を達成し、広く使われているMarket-1501データセットで人件検索のパフォーマンスにおいて、他のライバルよりも大幅に上回っている。

Person attribute recognition and attribute-based retrieval are two core human-centric tasks. In the recognition task, the challenge is specifying attributes depending on a person's appearance, while the retrieval task involves searching for matching persons based on attribute queries. There is a significant relationship between recognition and retrieval tasks. In this study, we demonstrate that if there is a sufficiently robust network to solve person attribute recognition, it can be adapted to facilitate better performance for the retrieval task. Another issue that needs addressing in the retrieval task is the modality gap between attribute queries and persons' images. Therefore, in this paper, we present CLEAR, a unified network designed to address both tasks. We introduce a robust cross-transformers network to handle person attribute recognition. Additionally, leveraging a pre-trained language model, we construct pseudo-descriptions for attribute queries and introduce an effective training strategy to train only a few additional parameters for adapters, facilitating the handling of the retrieval task. Finally, the unified CLEAR model is evaluated on five benchmarks: PETA, PA100K, Market-1501, RAPv2, and UPAR-2024. Without bells and whistles, CLEAR achieves state-of-the-art performance or competitive results for both tasks, significantly outperforming other competitors in terms of person retrieval performance on the widely-used Market-1501 dataset.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-30
# 人々は行動を説明するとき、自動運転車の目的に貢献する

People Attribute Purpose to Autonomous Vehicles When Explaining Their Behavior ( http://arxiv.org/abs/2403.08828v2 )

ライセンス: Link先を確認
Balint Gyevnar, Stephanie Droop, Tadeg Quillien, Shay B. Cohen, Neil R. Bramley, Christopher G. Lucas, Stefano V. Albrecht, (参考訳) 認知科学は、人々がどの説明を期待するか、どの形式で、因果的、反事実的、テレロジカル(目的指向)を問わず、これらの説明を体系化するかを理解するのに役立つ。 これらの概念の関連性を理解することは、会話と行動可能性を提供する優れた説明可能なAI(XAI)を構築するために不可欠である。 複雑な意思決定領域である自律運転に着目して,2つの調査から得られた実証データを報告する。 (i)14のシナリオ(N1=54)で自動運転車の動作を説明する方法、及び (II)複雑さ、品質、信頼性の観点からこれらの説明をどう受け止めるか(N2=356)。 参加者はテレロジカルな説明が反ファクト的な説明よりも著しく品質が良く、テレロジカルな説明が品質と信頼性の最良の予測要因であると考えた。 認識されたテレロジーや品質は、車両が自動運転車であるか、または人によって運転されているかに影響されない。 これは、人々がテレロジーを使用して、他者だけでなく、自動運転車に関する情報を評価することを意味する。 また,本研究は,XAIの標準的な因果的メカニズムとして,単に目的というよりは,目的という観点で考えることの重要性を強調した。 14のシナリオと1,300以上の提案された説明を、Human Explanations for Autonomous Driving Decisions(HEADD)データセットとして公開しています。

Cognitive science can help us understand which explanations people might expect, and in which format they frame these explanations, whether causal, counterfactual, or teleological (i.e., purpose-oriented). Understanding the relevance of these concepts is crucial for building good explainable AI (XAI) which offers recourse and actionability. Focusing on autonomous driving, a complex decision-making domain, we report empirical data from two surveys on (i) how people explain the behavior of autonomous vehicles in 14 unique scenarios (N1=54), and (ii) how they perceive these explanations in terms of complexity, quality, and trustworthiness (N2=356). Participants deemed teleological explanations significantly better quality than counterfactual ones, with perceived teleology being the best predictor of perceived quality and trustworthiness. Neither the perceived teleology nor the quality were affected by whether the car was an autonomous vehicle or driven by a person. This indicates that people use teleology to evaluate information about not just other people but also autonomous vehicles. Taken together, our findings highlight the importance of explanations that are framed in terms of purpose rather than just, as is standard in XAI, the causal mechanisms involved. We release the 14 scenarios and more than 1,300 elicited explanations publicly as the Human Explanations for Autonomous Driving Decisions (HEADD) dataset.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# 拡散モデルに手を与える:条件付き画像生成における2段階的アプローチ

Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation ( http://arxiv.org/abs/2403.10731v2 )

ライセンス: Link先を確認
Anton Pelykh, Ozge Mercanoglu Sincan, Richard Bowden, (参考訳) 近年,人間の画像生成,特に拡散モデルの発展が著しい進歩を遂げている。 しかし、既存の拡散法は、一貫した手解剖を作成する際に問題に遭遇し、生成された画像は手ポーズの正確な制御を欠いていることが多い。 この制限に対処するために、ポーズ条件付き人体画像生成の新たなアプローチを導入し、プロセスを2段階に分割する。 本稿では,手動画像とそれに対応するセグメンテーションマスクの両方を生成するために,マルチタスク設定で手動生成装置を訓練し,第1世代にトレーニングモデルを適用することを提案する。 適応されたコントロールネットモデルが第2段階で使用され、生成された手の周りにボディを塗り替え、最終的な結果が生成される。 両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。 これは、最後の画像のシームレスで凝集的な合成を保証するために、潜伏した表現を融合させながら、塗装された領域を順次拡張することを含む。 実験により,HGRIDデータセットで検証した精度と画質の両面において,提案手法が最先端技術よりも優れていることを示す。 提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。 提案されたアプローチのソースコードはhttps://github.com/apelykh/hand-to-diffusionで公開されている。

Recent years have seen significant progress in human image generation, particularly with the advancements in diffusion models. However, existing diffusion methods encounter challenges when producing consistent hand anatomy and the generated images often lack precise control over the hand pose. To address this limitation, we introduce a novel approach to pose-conditioned human image generation, dividing the process into two stages: hand generation and subsequent body outpainting around the hands. We propose training the hand generator in a multi-task setting to produce both hand images and their corresponding segmentation masks, and employ the trained model in the first stage of generation. An adapted ControlNet model is then used in the second stage to outpaint the body around the generated hands, producing the final result. A novel blending technique is introduced to preserve the hand details during the second stage that combines the results of both stages in a coherent way. This involves sequential expansion of the outpainted region while fusing the latent representations, to ensure a seamless and cohesive synthesis of the final image. Experimental evaluations demonstrate the superiority of our proposed method over state-of-the-art techniques, in both pose accuracy and image quality, as validated on the HaGRID dataset. Our approach not only enhances the quality of the generated hands but also offers improved control over hand pose, advancing the capabilities of pose-conditioned human image generation. The source code of the proposed approach is available at https://github.com/apelykh/hand-to-diffusion.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# 名前だけを言う: データ生成のみによるカテゴリー名によるオンライン連続学習

Just Say the Name: Online Continual Learning with Category Names Only via Data Generation ( http://arxiv.org/abs/2403.10853v2 )

ライセンス: Link先を確認
Minhyuk Seo, Diganta Misra, Seongwon Cho, Minjae Lee, Jonghyun Choi, (参考訳) 現実のシナリオでは、継続的な学習のための広範囲なマニュアルアノテーションは、禁止コストのため実行不可能である。 大規模なWeb教師付きトレーニングの影響を受け、継続学習におけるWebスクラッドデータの活用を推奨する先行技術は、データ不均衡、使用制限、プライバシの懸念といった課題を提起する。 オンライン連続学習フレームワークG-NoCL(Generative Name only Continual Learning)を提案する。 提案したG-NoCLは、学習者とともにジェネレータGのセットを使用する。 新しい概念(クラス)に遭遇する際、G-NoCLは、生成されたデータから最適なトレーニングデータをサンプリングするために、新しいサンプルの複雑さ誘導型データアンサンブル技術であるDIverSityとコムニシティ強化センタムBlER(DISCOBER)を採用する。 G-NoCL オンライン CL ベンチマークにおける DISCOBER の優れた性能を実証し,イン・ディストリビューション (ID) とアウト・オブ・ディストリビューション (OOD) の2つの一般化評価を行った。

In real-world scenarios, extensive manual annotation for continual learning is impractical due to prohibitive costs. Although prior arts, influenced by large-scale webly supervised training, suggest leveraging web-scraped data in continual learning, this poses challenges such as data imbalance, usage restrictions, and privacy concerns. Addressing the risks of continual webly supervised training, we present an online continual learning framework - Generative Name only Continual Learning (G-NoCL). The proposed G-NoCL uses a set of generators G along with the learner. When encountering new concepts (i.e., classes), G-NoCL employs the novel sample complexity-guided data ensembling technique DIverSity and COmplexity enhancing ensemBlER (DISCOBER) to optimally sample training data from generated data. Through extensive experimentation, we demonstrate superior performance of DISCOBER in G-NoCL online CL benchmarks, covering both In-Distribution (ID) and Out-of-Distribution (OOD) generalization evaluations, compared to naive generator-ensembling, web-supervised, and manually annotated data.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# Linguacodus: 機械学習パイプラインにおける変換コード生成のための相乗的フレームワーク

Linguacodus: A Synergistic Framework for Transformative Code Generation in Machine Learning Pipelines ( http://arxiv.org/abs/2403.11585v2 )

ライセンス: Link先を確認
Ekaterina Trofimova, Emil Sataev, Andrey E. Ustyuzhanin, (参考訳) 機械学習の世界では、自然言語による記述を実行可能なコードにシームレスに翻訳することは、まだまだ難しい課題だ。 本稿では、自然言語のタスク記述を高レベルなデータ整形命令によってコードに反復的に変換する動的パイプラインを配置することで、この問題に対処する革新的なフレームワークであるLinguacodusを紹介する。 Linguacodusの中核は、様々な問題に対する多様なソリューションを評価し、与えられたタスクに最も適したものを選択する権限を持つ、微調整された大規模言語モデル(LLM)である。 本稿では、微調整過程を詳述し、自然言語記述を関数型コードに変換する方法について光を当てる。 Linguacodusは、タスク記述と実行可能コードのギャップを効果的に埋める、自動コード生成への大きな飛躍を表している。 それは、さまざまなドメインにわたる機械学習アプリケーションを前進させる、という大きな約束を持っています。 また,MLタスクの自然な記述を人間のインタラクションを最小限に抑えたコードに変換するアルゴリズムを提案する。 Kaggleを起源とする膨大な機械学習コードデータセットに関する広範な実験では、Linguacodusの有効性を示す。 この調査は、さまざまな分野にまたがる潜在的な応用を強調し、さまざまな科学分野における応用機械学習への影響を強調している。

In the ever-evolving landscape of machine learning, seamless translation of natural language descriptions into executable code remains a formidable challenge. This paper introduces Linguacodus, an innovative framework designed to tackle this challenge by deploying a dynamic pipeline that iteratively transforms natural language task descriptions into code through high-level data-shaping instructions. The core of Linguacodus is a fine-tuned large language model (LLM), empowered to evaluate diverse solutions for various problems and select the most fitting one for a given task. This paper details the fine-tuning process, and sheds light on how natural language descriptions can be translated into functional code. Linguacodus represents a substantial leap towards automated code generation, effectively bridging the gap between task descriptions and executable code. It holds great promise for advancing machine learning applications across diverse domains. Additionally, we propose an algorithm capable of transforming a natural description of an ML task into code with minimal human interaction. In extensive experiments on a vast machine learning code dataset originating from Kaggle, we showcase the effectiveness of Linguacodus. The investigations highlight its potential applications across diverse domains, emphasizing its impact on applied machine learning in various scientific fields.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# Ge-on-Si光エミッタを用いた全シリコンQKD送信機の実現

Towards an All-Silicon QKD Transmitter Sourced by a Ge-on-Si Light Emitter ( http://arxiv.org/abs/2403.13505v2 )

ライセンス: Link先を確認
Florian Honz, Nemanja Vokić, Michael Hentschel, Philip Walther, Hannes Hübel, Bernhard Schrenk, (参考訳) 本稿では,フォワードバイアスのGe-on-SiPIN接合の非コヒーレント光によって導かれる分極符号化BB84プロトコルに基づく量子鍵分布の新たな送信機概念を実証する。 複数の変調器による独立分極符号化と、干渉分極変調器を利用した簡易なアプローチを含む、量子状態準備のための2つのアーキテクチャについて検討する。 我々は、Ge-on-Si光源が2.15kbit/sの生鍵レートを1GHzのシンボルレートで7.71%の量子ビット誤り比で達成し、量子鍵生成に有効であることを実験的に証明した。 さらに,不整合光源のブロードバンド特性と相まって,光ファイバー伝送路における脱分極の影響について検討する。 本研究は,ゼロトラスト・イントラ・データセンター環境におけるショートリーチ適用の可能性について,その光源を含む完全集積シリコン量子鍵伝送装置の実現可能性を示すものである。

We demonstrate a novel transmitter concept for quantum key distribution based on the polarization-encoded BB84 protocol, which is sourced by the incoherent light of a forward-biased Ge-on-Si PIN junction. We investigate two architectures for quantum state preparation, including independent polarization encoding through multiple modulators and a simplified approach leveraging on an interferometric polarization modulator. We experimentally prove that the Ge-on-Si light source can accommodate for quantum key generation by accomplishing raw-key rates of 2.15 kbit/s at a quantum bit error ratio of 7.71% at a symbol rate of 1 GHz. We further investigate the impact of depolarization along fiber-based transmission channels in combination with the broadband nature of the incoherent light source. Our results prove the feasibility of a fully-integrated silicon quantum key distribution transmitter, including its light source, for possible short-reach applications in zero-trust intra-datacenter environments.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# ダブル機械学習による因果効果推定手法の評価

Estimating Causal Effects with Double Machine Learning -- A Method Evaluation ( http://arxiv.org/abs/2403.14385v2 )

ライセンス: Link先を確認
Jonathan Fuhr, Philipp Berens, Dominik Papies, (参考訳) 観測データによる因果効果の推定は非常に活発な研究領域である。 近年,機械学習を用いて因果効果の推定に必要な古典的仮定を緩和するフレームワークが開発されている。 本稿では、従来の統計手法と比較してシミュレーションデータの性能を比較し、実世界のデータに適用する前に実証的に評価することで、最も顕著な手法の1つである「ダブル/デバイアスド機械学習」(DML)を概観する。 この結果から, DML 内でのフレキシブルな機械学習アルゴリズムの適用により, 様々な非線形共起関係の調整が向上することが示唆された。 この利点は、因果効果推定に通常必要とされる伝統的な機能形式仮定から逸脱することができる。 しかし,本手法は因果構造と同定に関する標準的な仮定に強く依存し続けている。 我が国の住宅価格に対する大気汚染の影響を推定すると、DMLの推定値は、よりフレキシブルでない方法の推定よりも一貫して大きいことが分かる。 総合的な結果から、研究者が実際にDMLを適用する際にすべき特定の選択について、実行可能なレコメンデーションを提供する。

The estimation of causal effects with observational data continues to be a very active research area. In recent years, researchers have developed new frameworks which use machine learning to relax classical assumptions necessary for the estimation of causal effects. In this paper, we review one of the most prominent methods - "double/debiased machine learning" (DML) - and empirically evaluate it by comparing its performance on simulated data relative to more traditional statistical methods, before applying it to real-world data. Our findings indicate that the application of a suitably flexible machine learning algorithm within DML improves the adjustment for various nonlinear confounding relationships. This advantage enables a departure from traditional functional form assumptions typically necessary in causal effect estimation. However, we demonstrate that the method continues to critically depend on standard assumptions about causal structure and identification. When estimating the effects of air pollution on housing prices in our application, we find that DML estimates are consistently larger than estimates of less flexible methods. From our overall results, we provide actionable recommendations for specific choices researchers must make when applying DML in practice.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# QuanTemp: 事実チェックの数値クレームのための実世界のオープンドメインベンチマーク

QuanTemp: A real-world open-domain benchmark for fact-checking numerical claims ( http://arxiv.org/abs/2403.17169v2 )

ライセンス: Link先を確認
Venktesh V, Abhijit Anand, Avishek Anand, Vinay Setty, (参考訳) デジタル時代の偽情報に対処するために、自動事実チェックが大きな関心を集めている。 既存のシステムは主にウィキペディアの人工的な主張に焦点を当てており、注目すべき進歩は現実世界の主張にも向けられている。 本研究では,時間的,統計的,多様な側面を包含し,詳細なメタデータと漏洩のないエビデンス収集を含む,数値的クレームに特化した多分野データセットであるNumtempをリリースする。 これは、複雑でしばしば正確な情報がない実世界の数値的主張を検証するという課題に対処し、主に合成的主張に焦点を当てた既存の研究には対処しない。 我々は,数値クレームの検証作業において,既存の解の限界を評価し,定量化する。 また,クレーム分解に基づく手法,数値理解に基づくモデル,および最良ベースラインが58.32のマクロF1を達成することを評価した。 このことは、Numtempが数値クレーム検証のための挑戦的な評価セットであることを示している。

Automated fact checking has gained immense interest to tackle the growing misinformation in the digital era. Existing systems primarily focus on synthetic claims on Wikipedia, and noteworthy progress has also been made on real-world claims. In this work, we release Numtemp, a diverse, multi-domain dataset focused exclusively on numerical claims, encompassing temporal, statistical and diverse aspects with fine-grained metadata and an evidence collection without leakage. This addresses the challenge of verifying real-world numerical claims, which are complex and often lack precise information, not addressed by existing works that mainly focus on synthetic claims. We evaluate and quantify the limitations of existing solutions for the task of verifying numerical claims. We also evaluate claim decomposition based methods, numerical understanding based models and our best baselines achieves a macro-F1 of 58.32. This demonstrates that Numtemp serves as a challenging evaluation set for numerical claim verification.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# 未知へのチューニング - 生涯RLの評価方略の再考

Tuning for the Unknown: Revisiting Evaluation Strategies for Lifelong RL ( http://arxiv.org/abs/2404.02113v2 )

ライセンス: Link先を確認
Golnaz Mesbahi, Olya Mastikhina, Parham Mohammad Panahi, Martha White, Adam White, (参考訳) 持続的または生涯にわたる強化学習は、環境へのアクセスを制限するべきである。 もし私たちが、新しい予期せぬ状況に継続的に適応し、長期間実行可能なアルゴリズムを設計したいなら、エージェントの生涯にわたってハイパーパラメータを調整せずにエージェントをデプロイしなければなりません。 ディープRL(そして連続RL)の標準的なプラクティスは、エージェントの全生涯にわたって、デプロイ環境へのフェッターのないアクセスを仮定することである。 本稿では, 寿命の長いRL研究の進展が, 不適切な経験的方法論によって支えられているという考えを考察する。 本稿では,実験データの1%しかハイパーパラメータチューニングに使用できない長寿命RLエージェントのチューニングと評価のための新しい手法を提案する。 次に、DQNとSoft Actor Criticの連続および非定常領域に関する実証的研究を行う。 いずれの手法も1パーセントのチューニングに制限された場合,性能が低下するのに対して,ネットワークの可塑性を維持するために設計されたアルゴリズム的緩和は驚くべき性能を発揮する。 さらに,ネットワークの学習能力を測定するために設計された特性は,1パーセントのチューニング下での性能と実際に相関していることがわかった。

In continual or lifelong reinforcement learning access to the environment should be limited. If we aspire to design algorithms that can run for long-periods of time, continually adapting to new, unexpected situations then we must be willing to deploy our agents without tuning their hyperparameters over the agent's entire lifetime. The standard practice in deep RL -- and even continual RL -- is to assume unfettered access to deployment environment for the full lifetime of the agent. This paper explores the notion that progress in lifelong RL research has been held back by inappropriate empirical methodologies. In this paper we propose a new approach for tuning and evaluating lifelong RL agents where only one percent of the experiment data can be used for hyperparameter tuning. We then conduct an empirical study of DQN and Soft Actor Critic across a variety of continuing and non-stationary domains. We find both methods generally perform poorly when restricted to one-percent tuning, whereas several algorithmic mitigations designed to maintain network plasticity perform surprising well. In addition, we find that properties designed to measure the network's ability to learn continually indeed correlate with performance under one-percent tuning.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# 固有プルーニング

Eigenpruning ( http://arxiv.org/abs/2404.03147v3 )

ライセンス: Link先を確認
Tomás Vergara-Browne, Álvaro Soto, Akiko Aizawa, (参考訳) 固有プルーニング(eigenpruning)は、LLMの重み行列から特異値を取り除き、特定のタスクの性能を向上させる手法である。 この方法は、特定のタスクを解決するモデルのサブネットワークを自動的に見つけるために設計された解釈可能性メソッドにインスパイアされている。 実験では, プルーンドモデルでは, 重量行列のプルーニングに最小限の計算しか必要とせず, 元のモデルよりも大きなマージンで性能が向上した。 整数乗算における小さな合成タスクの場合、Phi-2モデルはテストセットの精度を13.75%から97.50%に向上させることができる。 興味深いことに、これらの結果はタスクを効果的に解決できる計算経路の存在を示すものと思われるが、元のモデルでは使われていなかった。 最後に、実装を公開します。

We introduce eigenpruning, a method that removes singular values from weight matrices in an LLM to improve its performance in a particular task. This method is inspired by interpretability methods designed to automatically find subnetworks of a model which solve a specific task. In our tests, the pruned model outperforms the original model by a large margin, while only requiring minimal computation to prune the weight matrices. In the case of a small synthetic task in integer multiplication, the Phi-2 model can improve its accuracy in the test set from 13.75% to 97.50%. Interestingly, these results seem to indicate the existence of a computation path that can solve the task very effectively, but it was not being used by the original model. Finally, we publicly release our implementation.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# 推論時ルール消去器: 展開モデルにおけるバイアス軽減のためのバイアスルールの蒸留と除去

Inference-Time Rule Eraser: Distilling and Removing Bias Rules to Mitigate Bias in Deployed Models ( http://arxiv.org/abs/2404.04814v2 )

ライセンス: Link先を確認
Yi Zhang, Jitao Sang, (参考訳) 機械学習モデルは、性別、人種、その他の社会的属性などのバイアスのある特徴に基づいて予測を行い、特に雇用、銀行、刑事司法といった社会的な応用において重要な公正性リスクを生じさせる。 この問題に対処する従来のアプローチは、公正さを意識した最適化目標を持つニューラルネットワークの再トレーニングや微調整を含む。 しかし、これらの手法は計算資源、複雑な工業試験、および関連するCO2フットプリントのために実用的ではない。 さらに、公正モデルの使用を目指す通常のユーザーは、しばしばモデルパラメータへのアクセスを欠いている。 本稿では,モデル重みを変更せずに公平な問題に対処するため,推論中に偏りのある決定規則を除去することを目的とした新しい手法である推論時ルール消去手法(Eraser)を紹介する。 まず、ベイズ解析により偏りのある規則を除去するためにモデル出力を変更する理論的基礎を確立する。 次に,(1) バイアス付き規則をパッチ付きモデルに抽出するためにモデルを問うこと,(2) 推論中にバイアス付き規則を除外すること,の2つの段階を含むエラザーの実装について述べる。 大規模な実験により,AIシステムにおける公平性の懸念に対処する上で,その優れた性能を示すとともに,提案手法の有効性を検証した。

Machine learning models often make predictions based on biased features such as gender, race, and other social attributes, posing significant fairness risks, especially in societal applications, such as hiring, banking, and criminal justice. Traditional approaches to addressing this issue involve retraining or fine-tuning neural networks with fairness-aware optimization objectives. However, these methods can be impractical due to significant computational resources, complex industrial tests, and the associated CO2 footprint. Additionally, regular users aiming to use fair models often lack access to model parameters. In this paper, we introduce Inference-Time Rule Eraser (Eraser), a novel method focused on removing biased decision-making rules during inference to address fairness concerns without modifying model weights. We begin by establishing a theoretical foundation for modifying model outputs to eliminate biased rules through Bayesian analysis. Next, we present a specific implementation of Eraser that involves two stages: (1) querying the model to distill biased rules into a patched model, and (2) excluding these biased rules during inference. Extensive experiments validate the effectiveness of our approach, showcasing its superior performance in addressing fairness concerns in AI systems.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# CodeEnhance: 低照度画像強調のためのコードブック駆動アプローチ

CodeEnhance: A Codebook-Driven Approach for Low-Light Image Enhancement ( http://arxiv.org/abs/2404.05253v2 )

ライセンス: Link先を確認
Xu Wu, XianXu Hou, Zhihui Lai, Jie Zhou, Ya-nan Zhang, Witold Pedrycz, Linlin Shen, (参考訳) 低照度画像強調(LLIE)は、低照度画像を改善することを目的としている。 しかし, 従来の手法では, 1) 多様な明るさ劣化からの回復の不確実性, (2) 騒音抑制や光の増強によるテクスチャや色情報の喪失, という2つの課題に直面している。 本稿では、これらの課題に対処するために、量子化された事前情報と画像の精細化を活用して、新しいエンハンスメント手法、CodeEnhanceを提案する。 特に、LLIEを低照度画像から高画質画像から学習した離散コードブックへのイメージ・ツー・コードマッピングとして再設計する。 このプロセスを強化するために、セマンティック・エンベディング・モジュール(SEM)を導入し、セマンティック・インベディング・モジュールを低レベルな特徴と統合し、コードブック・シフト(CS)メカニズムを導入しました。 さらに、画像再構成時にテクスチャや色情報を洗練するためのInteractive Feature Transformation (IFT) モジュールを提案する。 実世界および合成ベンチマークの広範な実験により、事前知識の取り込みと制御可能な情報伝達により、LLIEの性能は品質と忠実度において著しく向上することが示された。 提案したCodeEnhanceは、不均一照明、ノイズ、色歪みなど、様々な劣化に対して優れた堅牢性を示す。

Low-light image enhancement (LLIE) aims to improve low-illumination images. However, existing methods face two challenges: (1) uncertainty in restoration from diverse brightness degradations; (2) loss of texture and color information caused by noise suppression and light enhancement. In this paper, we propose a novel enhancement approach, CodeEnhance, by leveraging quantized priors and image refinement to address these challenges. In particular, we reframe LLIE as learning an image-to-code mapping from low-light images to discrete codebook, which has been learned from high-quality images. To enhance this process, a Semantic Embedding Module (SEM) is introduced to integrate semantic information with low-level features, and a Codebook Shift (CS) mechanism, designed to adapt the pre-learned codebook to better suit the distinct characteristics of our low-light dataset. Additionally, we present an Interactive Feature Transformation (IFT) module to refine texture and color information during image reconstruction, allowing for interactive enhancement based on user preferences. Extensive experiments on both real-world and synthetic benchmarks demonstrate that the incorporation of prior knowledge and controllable information transfer significantly enhances LLIE performance in terms of quality and fidelity. The proposed CodeEnhance exhibits superior robustness to various degradations, including uneven illumination, noise, and color distortion.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# マルチスケールビデオとマルチエンコーダによる唇読解の強化

Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder ( http://arxiv.org/abs/2404.05466v2 )

ライセンス: Link先を確認
He Wang, Pengcheng Guo, Xucheng Wan, Huan Zhou, Lei Xie, (参考訳) 自動唇読解(ALR)は、ビデオで捉えた話者の無声唇の動きから音声コンテンツを自動転写することを目的としている。 現在の主流のリップリーダーアプローチでは、単一スケールの入力ビデオをモデル化するために単一のビジュアルエンコーダしか使用していない。 本稿では,マルチスケールビデオデータとマルチエンコーダを組み込むことで,唇読解能力を向上させることを提案する。 具体的には、まず、話者の顔の大きさに基づく新しいマルチスケール唇運動抽出アルゴリズムと、異なるスケールで唇の特徴を抽出する拡張ResNet3D視覚フロントエンド(VFE)を提案する。 マルチエンコーダでは、メインストリームの Transformer と Conformer に加えて、最近提案された Branchformer と E-Branchformer をビジュアルエンコーダとして組み込む。 実験では、異なるビデオデータスケールとエンコーダがALRシステムの性能に与える影響について検討し、認識器出力投票誤り低減(ROVER)を用いて全ALRシステムで書き起こされたテキストを融合させる。 最後に,提案手法はICME 2024 ChatCLR Challenge Task 2で2位となり,文字誤り率(CER)が21.52%低下した。

Automatic lip-reading (ALR) aims to automatically transcribe spoken content from a speaker's silent lip motion captured in video. Current mainstream lip-reading approaches only use a single visual encoder to model input videos of a single scale. In this paper, we propose to enhance lip-reading by incorporating multi-scale video data and multi-encoder. Specifically, we first propose a novel multi-scale lip motion extraction algorithm based on the size of the speaker's face and an Enhanced ResNet3D visual front-end (VFE) to extract lip features at different scales. For the multi-encoder, in addition to the mainstream Transformer and Conformer, we also incorporate the recently proposed Branchformer and E-Branchformer as visual encoders. In the experiments, we explore the influence of different video data scales and encoders on ALR system performance and fuse the texts transcribed by all ALR systems using recognizer output voting error reduction (ROVER). Finally, our proposed approach placed second in the ICME 2024 ChatCLR Challenge Task 2, with a 21.52% reduction in character error rate (CER) compared to the official baseline on the evaluation set.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-30
# SaLIPによるテスト時間適応:ゼロショット医用画像分割のためのSAMとCLIPのケース

Test-Time Adaptation with SaLIP: A Cascade of SAM and CLIP for Zero shot Medical Image Segmentation ( http://arxiv.org/abs/2404.06362v2 )

ライセンス: Link先を確認
Sidra Aleem, Fangyijie Wang, Mayug Maniparambil, Eric Arazo, Julia Dietlmeier, Guenole Silvestre, Kathleen Curran, Noel E. O'Connor, Suzanne Little, (参考訳) Segment Anything Model (SAM) と CLIP は目覚しいビジョン基盤モデル (VFM) である。 プロンプト駆動セグメンテーションモデルであるSAMは、さまざまなドメインにわたるセグメンテーションタスクを優れており、CLIPはそのゼロショット認識機能で有名である。 しかし, 医用画像のセグメンテーションにおいて, 統一された可能性はまだ検討されていない。 SAMを医用画像に適応させるためには、既存の手法は主に、広範囲なデータや特定のタスクに合わせた事前プロンプトを必要とするチューニング戦略に依存しており、限られたデータサンプルしか利用できない場合には特に困難である。 本研究は、SAMとCLIPを医用画像セグメンテーションの統一フレームワークに統合するための深層探査である。 具体的には,臓器分割のための単純な統合フレームワークSaLIPを提案する。 SAMは画像内の部分ベースのセグメンテーションに使用され、CLIPはSAM生成マスクのプールから関心領域(ROI)に対応するマスクを検索する。 最後に、SAMは検索されたROIによって特定の臓器を分節するように促される。 従って、SaLIPはトレーニングと微調整を無償で行い、ドメインの専門知識やラベル付きデータに即時エンジニアリングを頼らない。 提案法は, ゼロショットセグメンテーションにおいて顕著な改善を示し, 脳(63.46%), 肺(50.11%), 胎児頭(30.82%)におけるDICEスコアの顕著な改善を示した。 コードとテキストのプロンプトは、https://github.com/aleemsidra/SaLIP.comで入手できる。

The Segment Anything Model (SAM) and CLIP are remarkable vision foundation models (VFMs). SAM, a prompt driven segmentation model, excels in segmentation tasks across diverse domains, while CLIP is renowned for its zero shot recognition capabilities. However, their unified potential has not yet been explored in medical image segmentation. To adapt SAM to medical imaging, existing methods primarily rely on tuning strategies that require extensive data or prior prompts tailored to the specific task, making it particularly challenging when only a limited number of data samples are available. This work presents an in depth exploration of integrating SAM and CLIP into a unified framework for medical image segmentation. Specifically, we propose a simple unified framework, SaLIP, for organ segmentation. Initially, SAM is used for part based segmentation within the image, followed by CLIP to retrieve the mask corresponding to the region of interest (ROI) from the pool of SAM generated masks. Finally, SAM is prompted by the retrieved ROI to segment a specific organ. Thus, SaLIP is training and fine tuning free and does not rely on domain expertise or labeled data for prompt engineering. Our method shows substantial enhancements in zero shot segmentation, showcasing notable improvements in DICE scores across diverse segmentation tasks like brain (63.46%), lung (50.11%), and fetal head (30.82%), when compared to un prompted SAM. Code and text prompts are available at: https://github.com/aleemsidra/SaLIP.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# アニメーションに基づく不連続映像からの行動認識のための拡張手法

An Animation-based Augmentation Approach for Action Recognition from Discontinuous Video ( http://arxiv.org/abs/2404.06741v2 )

ライセンス: Link先を確認
Xingyu Song, Zhan Li, Shi Chen, Xin-Qiang Cai, Kazuyuki Demachi, (参考訳) コンピュータビジョンの重要な構成要素である行動認識は、複数のアプリケーションにおいて重要な役割を果たす。 畳み込みニューラルネットワーク(CNN)による大幅な改善にもかかわらず、これらのモデルは、現実の環境で頻繁に発生する不連続なビデオフレームでトレーニングされた場合、パフォーマンスが低下する。 この減少は主に、人間の行動の意味を理解するために不可欠である時間的連続性の喪失に起因する。 この問題を克服するために,RGBビデオからの2次元人物ポーズ推定から始まる4Aパイプライン(Action Animation-based Augmentation Approach)と,関節方位と軌道方向予測のためのQuternion-based Graph Convolution Network,ゲームエンジン技術を用いたスムーズで多様なアクションを生成するDynamic Skeletal Interpolationを導入する。 この革新的なアプローチは、様々なゲーム環境において、複数の視点から現実的なアニメーションを生成する。 このようにして,本手法は仮想データと実世界のデータ間の領域ギャップを効果的に橋渡しする。 実験的な評価では、4Aパイプラインは、元のデータボリュームの10%しか必要とせず、現実世界のデータを使用した従来のトレーニングアプローチと同等またはそれ以上のパフォーマンスを達成する。 In-the-wildビデオの性能向上を実証し,アクション認識の分野での大きな進歩を示す。

Action recognition, an essential component of computer vision, plays a pivotal role in multiple applications. Despite significant improvements brought by Convolutional Neural Networks (CNNs), these models suffer performance declines when trained with discontinuous video frames, which is a frequent scenario in real-world settings. This decline primarily results from the loss of temporal continuity, which is crucial for understanding the semantics of human actions. To overcome this issue, we introduce the 4A (Action Animation-based Augmentation Approach) pipeline, which employs a series of sophisticated techniques: starting with 2D human pose estimation from RGB videos, followed by Quaternion-based Graph Convolution Network for joint orientation and trajectory prediction, and Dynamic Skeletal Interpolation for creating smoother, diversified actions using game engine technology. This innovative approach generates realistic animations in varied game environments, viewed from multiple viewpoints. In this way, our method effectively bridges the domain gap between virtual and real-world data. In experimental evaluations, the 4A pipeline achieves comparable or even superior performance to traditional training approaches using real-world data, while requiring only 10% of the original data volume. Additionally, our approach demonstrates enhanced performance on In-the-wild videos, marking a significant advancement in the field of action recognition.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# 自己動機学習による言語モデル推論の改善

Improving Language Model Reasoning with Self-motivated Learning ( http://arxiv.org/abs/2404.07017v3 )

ライセンス: Link先を確認
Yunlong Feng, Yang Xu, Libo Qin, Yasheng Wang, Wanxiang Che, (参考訳) モデルの性能向上には,大規模で高品質なトレーニングデータが必要である。 合理的なデータ(推論ステップ)でトレーニングした後、モデルは推論能力を得る。 しかし、高いアノテーションコストのため、高品質な合理性を持つデータセットは比較的少ない。 この問題に対処するため,我々はtextit{Self-motivated Learning} フレームワークを提案する。 このフレームワークはモデル自体を動機付け、既存のデータセットで合理性を自動的に生成する。 複数の有理数にまたがる正しさから固有のランクに基づいて、モデルはより良い有理数を生成することを学び、より高い推論能力をもたらす。 具体的には,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論性能の向上を図る。 複数の推論データセットに対するLlama2 7Bの実験結果から,本手法はモデルの推論能力を大幅に向上することが示された。

Large-scale high-quality training data is important for improving the performance of models. After trained with data that has rationales (reasoning steps), models gain reasoning capability. However, the dataset with high-quality rationales is relatively scarce due to the high annotation cost. To address this issue, we propose \textit{Self-motivated Learning} framework. The framework motivates the model itself to automatically generate rationales on existing datasets. Based on the inherent rank from correctness across multiple rationales, the model learns to generate better rationales, leading to higher reasoning capability. Specifically, we train a reward model with the rank to evaluate the quality of rationales, and improve the performance of reasoning through reinforcement learning. Experiment results of Llama2 7B on multiple reasoning datasets show that our method significantly improves the reasoning ability of models, even outperforming text-davinci-002 in some datasets.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# 単語から数字へ:インコンテキストの例が与えられたとき、あなたの大きな言語モデルは秘密裏にレグレッタになる

From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples ( http://arxiv.org/abs/2404.07544v2 )

ライセンス: Link先を確認
Robert Vacareanu, Vlad-Andrei Negru, Vasile Suciu, Mihai Surdeanu, (参考訳) 我々は,事前学習した大規模言語モデル(例えば,Llama2,GPT-4,Claude 3など)が,追加のトレーニングや勾配更新を伴わずに,文脈内例を与えられた場合の線形回帰や非線形回帰をいかにうまく行うかを分析する。 以上の結果から,複数の大規模言語モデル(GPT-4,Claude 3)は,ランダムフォレストやバッギング,グラディエントブースティングなど,従来の監視手法に匹敵する性能(あるいは優れた性能)で回帰処理を行うことができることがわかった。 例えば、挑戦的なFriedman #2回帰データセットでは、Claude 3がAdaBoost、SVM、Random Forest、KNN、Gradient Boostingといった多くの教師付きメソッドを上回っている。 次に、大規模言語モデルの性能が、文脈内例の個数でどの程度向上するかを考察する。 我々は、オンライン学習から後悔の概念を借用し、LLMがサブ線形後悔を得ることができることを実証的に示す。

We analyze how well pre-trained large language models (e.g., Llama2, GPT-4, Claude 3, etc) can do linear and non-linear regression when given in-context examples, without any additional training or gradient updates. Our findings reveal that several large language models (e.g., GPT-4, Claude 3) are able to perform regression tasks with a performance rivaling (or even outperforming) that of traditional supervised methods such as Random Forest, Bagging, or Gradient Boosting. For example, on the challenging Friedman #2 regression dataset, Claude 3 outperforms many supervised methods such as AdaBoost, SVM, Random Forest, KNN, or Gradient Boosting. We then investigate how well the performance of large language models scales with the number of in-context exemplars. We borrow from the notion of regret from online learning and empirically show that LLMs are capable of obtaining a sub-linear regret.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# 文字位置確率を用いた単語複雑度の評価

Using Letter Positional Probabilities to Assess Word Complexity ( http://arxiv.org/abs/2404.07768v3 )

ライセンス: Link先を確認
Michael Dalvean, (参考訳) 単語の複雑さは、様々な方法で定義されます。 心理言語学、形態学、語彙のプロキシがよく用いられる。 人間の格付けも用いられる。 ここでの問題は、これらのプロキシが直接複雑性を測定しておらず、人間の評価は主観的偏見に影響を受けやすいことである。 本研究では, 単純かつ複雑な単語のサンプルを用いて, ある種の「ラテント複雑性」を近似できることを論じる。 小学校の絵本からの「単純な」単語のサンプルと、高校や学界の「複雑な」単語のサンプルを用いる。 これらのクラスの違いを分析するために,文字位置確率(LPP)について検討する。 いくつかのLPPと複雑性の間には強い統計的関連性がある。 例えば、単純な単語はw, b, s, h, g, k, t, y, f で始まる傾向が強く(p<.001)、複雑な単語は i, a, e, r, v, u, d で始まる傾向が強い(p<.001)。 後続の文字位置に関しては同様の強い相関関係がみられ、最初の6位では84の文字位置変数がp<.001レベルで有意である。 次に LPP を変数として2つのクラスを 83% の精度で分類できる分類器を作成する。 両データセットに共通する第1の6つの位置において66個のLPP(p<.001)を有する第2のデータセットを用いてこれらの結果を検証した。 これらの66変数を使用して、第3のデータセットを70%の精度で分類できる分類器を作成します。 最後に、第1の3つのデータセット上に構築された3つの分類器によって生成された極端に高い評価語と低い評価語を組み合わせて第4のサンプルを作成し、このサンプルを使用して精度97%の分類器を構築する。 これを用いて、ESLプログラムから英語の単語群の4つのレベルをスコアリングする。

Word complexity is defined in a number of different ways. Psycholinguistic, morphological and lexical proxies are often used. Human ratings are also used. The problem here is that these proxies do not measure complexity directly, and human ratings are susceptible to subjective bias. In this study we contend that some form of 'latent complexity' can be approximated by using samples of simple and complex words. We use a sample of 'simple' words from primary school picture books and a sample of 'complex' words from high school and academic settings. In order to analyse the differences between these classes, we look at the letter positional probabilities (LPPs). We find strong statistical associations between several LPPs and complexity. For example, simple words are significantly (p<.001) more likely to start with w, b, s, h, g, k, j, t, y or f, while complex words are significantly (p<.001) more likely to start with i, a, e, r, v, u or d. We find similar strong associations for subsequent letter positions, with 84 letter-position variables in the first 6 positions being significant at the p<.001 level. We then use LPPs as variables in creating a classifier which can classify the two classes with an 83% accuracy. We test these findings using a second data set, with 66 LPPs significant (p<.001) in the first 6 positions common to both datasets. We use these 66 variables to create a classifier that is able to classify a third dataset with an accuracy of 70%. Finally, we create a fourth sample by combining the extreme high and low scoring words generated by three classifiers built on the first three separate datasets and use this sample to build a classifier which has an accuracy of 97%. We use this to score the four levels of English word groups from an ESL program.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# SIR-RL:新興市場における疫学的アウトブレイクと経済発展における最適政策管理のための強化学習

SIR-RL: Reinforcement Learning for Optimized Policy Control during Epidemiological Outbreaks in Emerging Market and Developing Economies ( http://arxiv.org/abs/2404.08423v2 )

ライセンス: Link先を確認
Maeghal Jain, Ziya Uddin, Wubshet Ibrahim, (参考訳) 新型コロナウイルスの感染拡大は、公衆衛生と世界規模での経済安定の複雑な相互作用を浮き彫りにした。 本研究では,パンデミック時の健康・経済的成果の最適化を目的とした,新たな強化学習フレームワークを提案する。 このフレームワークはSIRモデルを活用し、(文字列インデックスを介して)ロックダウン対策と予防接種戦略の両方を統合して、病気のダイナミクスをシミュレートする。 厳密性指数は、ロックダウン対策の深刻さを示すもので、病気の拡散と国の経済の健全性の両方に影響を与える。 厳格なロックダウンの下で不均衡な経済負担を負う発展途上国が、我々の研究の主眼だ。 強化学習を実施することで、政府の対応を最適化し、公衆衛生と経済の安定に関わる競争コストのバランスをとることを目指す。 このアプローチはまた、強化学習エージェントに対して明確に定義された報酬関数を確立することにより、政府の意思決定における透明性を高める。 本研究は,感染拡大に伴う公衆衛生と経済の安定のバランスをとるための,革新的かつ倫理的な戦略を導入するものである。

The outbreak of COVID-19 has highlighted the intricate interplay between public health and economic stability on a global scale. This study proposes a novel reinforcement learning framework designed to optimize health and economic outcomes during pandemics. The framework leverages the SIR model, integrating both lockdown measures (via a stringency index) and vaccination strategies to simulate disease dynamics. The stringency index, indicative of the severity of lockdown measures, influences both the spread of the disease and the economic health of a country. Developing nations, which bear a disproportionate economic burden under stringent lockdowns, are the primary focus of our study. By implementing reinforcement learning, we aim to optimize governmental responses and strike a balance between the competing costs associated with public health and economic stability. This approach also enhances transparency in governmental decision-making by establishing a well-defined reward function for the reinforcement learning agent. In essence, this study introduces an innovative and ethical strategy to navigate the challenge of balancing public health and economic stability amidst infectious disease outbreaks.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# インセンティブ・セキュリティによる学習の証明

Proof-of-Learning with Incentive Security ( http://arxiv.org/abs/2404.09005v3 )

ライセンス: Link先を確認
Zishuo Zhao, Zhixuan Fang, Xuechao Wang, Xi Chen, Yuan Zhou, (参考訳) ほとんどの並行ブロックチェーンシステムは、分散コンセンサスとセキュリティ保証のためのProof-of-Work(PoW)あるいはProof-of-Stake(PoS)メカニズムに大きく依存しています。 しかし、計算集約的かつ無意味なタスクから生じる実質的なエネルギー支出は、従来のPoWアプローチにまつわるかなりの懸念を引き起こしている。 これらの問題に対処するために、PoUW(Proof-of-Useful-Work)のパラダイムは、PoWとして実践的な重要性の課題を取り入れ、具体的な価値でエネルギー消費を付与することを目指している。 従来のPoL(Proof of Learning)では,PuUW課題としての深層学習モデルトレーニングSGDタスクの利用が検討されているが,近年の研究では,敵対的攻撃に対する脆弱性と,ビザンチンセキュアなPoL機構の構築における理論的難しさが明らかにされている。 本稿では、計算効率、証明可能なインセンティブ-セキュリティ保証、制御容易な難易度を有するPoL機構を設計するための既存の難しさを回避し、合理的なプローバーに率直に行動を促すインセンティブ-セキュリティの概念を紹介する。 特に、我々の仕事は、Jia et al [2021]の最近の研究に対する2つの攻撃に対して安全であり、計算オーバーヘッドを$\Theta(1)$から$O(\frac{\log E}{E})$に改善する。 さらに、最近の研究では、信頼性のある問題提供者と検証者が想定されているが、我々の設計では、問題提供者が信頼されていない場合でも、フロントエンドのインセンティブ・セキュリティを保証し、検証者のジレンマを回避できるインセンティブ・セキュリティも保証している。 MLトレーニングを証明可能な保証付きブロックチェーンコンセンサスメカニズムに組み込むことで、私たちの研究は、ブロックチェーンシステムに対するエコフレンドリなソリューションを提案するだけでなく、新たなAI時代における、完全に分散化されたコンピューティングパワー市場の提案も提供します。

Most concurrent blockchain systems rely heavily on the Proof-of-Work (PoW) or Proof-of-Stake (PoS) mechanisms for decentralized consensus and security assurance. However, the substantial energy expenditure stemming from computationally intensive yet meaningless tasks has raised considerable concerns surrounding traditional PoW approaches, The PoS mechanism, while free of energy consumption, is subject to security and economic issues. Addressing these issues, the paradigm of Proof-of-Useful-Work (PoUW) seeks to employ challenges of practical significance as PoW, thereby imbuing energy consumption with tangible value. While previous efforts in Proof of Learning (PoL) explored the utilization of deep learning model training SGD tasks as PoUW challenges, recent research has revealed its vulnerabilities to adversarial attacks and the theoretical hardness in crafting a byzantine-secure PoL mechanism. In this paper, we introduce the concept of incentive-security that incentivizes rational provers to behave honestly for their best interest, bypassing the existing hardness to design a PoL mechanism with computational efficiency, a provable incentive-security guarantee and controllable difficulty. Particularly, our work is secure against two attacks to the recent work of Jia et al. [2021], and also improves the computational overhead from $\Theta(1)$ to $O(\frac{\log E}{E})$. Furthermore, while most recent research assumes trusted problem providers and verifiers, our design also guarantees frontend incentive-security even when problem providers are untrusted, and verifier incentive-security that bypasses the Verifier's Dilemma. By incorporating ML training into blockchain consensus mechanisms with provable guarantees, our research not only proposes an eco-friendly solution to blockchain systems, but also provides a proposal for a completely decentralized computing power market in the new AI age.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# ReWiTe:ビームスプリッタ・カメラ・リグによる広角・望遠デュアルカメラフュージョンデータセット

ReWiTe: Realistic Wide-angle and Telephoto Dual Camera Fusion Dataset via Beam Splitter Camera Rig ( http://arxiv.org/abs/2404.10584v2 )

ライセンス: Link先を確認
Chunli Peng, Xuan Dong, Tiantian Cao, Zhengqing Li, Kun Dong, Weixin Li, (参考訳) 近年,広角カメラと望遠カメラを備えたデュアルカメラシステムからの画像の融合がホットスポット問題となっている。 これらのシステムから取得した広角画像と望遠画像を同時に統合することにより、融合した画像は高画質の視野(FOV)を実現する。 既存のアプローチは主にディープラーニングの手法であり、主にトレーニングデータセットが重要な役割を果たす教師付き学習に依存しています。 しかし、現在のデータセットは典型的にはデータ合成アプローチを採用しており、接地構造画像とともに広角画像と望遠画像の入力対を生成する。 特に、実際の広角カメラで撮影するよりも広角入力を合成し、望遠カメラで撮影する入力望遠画像よりも画質がかなり低い広角カメラで地平線画像をキャプチャする。 これらの制約に対処するために,広角・望遠デュアルカメラを備えた2台の携帯電話から入力対と接地トラス画像の3つの画像を同時にキャプチャするビームスプリッタを用いた新しいハードウェア構成を導入する。 具体的には、携帯電話2が捉えた広角・望遠画像が入力対として機能し、携帯電話1が捉えた望遠画像は、携帯電話2からの広角画像の光路に合わせて校正され、入力された望遠画像と同等の画質を維持した地上画像として機能する。 ReWiTeと呼ばれる新しいデータセットの有効性を検証する実験により、実世界の広角・望遠両画像融合タスクにおける様々な既存手法の性能を大幅に向上する。

The fusion of images from dual camera systems featuring a wide-angle and a telephoto camera has become a hotspot problem recently. By integrating simultaneously captured wide-angle and telephoto images from these systems, the resulting fused image achieves a wide field of view (FOV) coupled with high-definition quality. Existing approaches are mostly deep learning methods, and predominantly rely on supervised learning, where the training dataset plays a pivotal role. However, current datasets typically adopt a data synthesis approach generate input pairs of wide-angle and telephoto images alongside ground-truth images. Notably, the wide-angle inputs are synthesized rather than captured using real wide-angle cameras, and the ground-truth image is captured by wide-angle camera whose quality is substantially lower than that of input telephoto images captured by telephoto cameras. To address these limitations, we introduce a novel hardware setup utilizing a beam splitter to simultaneously capture three images, i.e. input pairs and ground-truth images, from two authentic cellphones equipped with wide-angle and telephoto dual cameras. Specifically, the wide-angle and telephoto images captured by cellphone 2 serve as the input pair, while the telephoto image captured by cellphone 1, which is calibrated to match the optical path of the wide-angle image from cellphone 2, serves as the ground-truth image, maintaining quality on par with the input telephoto image. Experiments validate the efficacy of our newly introduced dataset, named ReWiTe, significantly enhances the performance of various existing methods for real-world wide-angle and telephoto dual image fusion tasks.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# トンネルに光を照らす:住宅用プロキシのネットワークトラフィックの理解と分類

Shining Light into the Tunnel: Understanding and Classifying Network Traffic of Residential Proxies ( http://arxiv.org/abs/2404.10610v2 )

ライセンス: Link先を確認
Ronghong Huang, Dongfang Zhao, Xianghang Mi, Xiaofeng Wang, (参考訳) 近年の住宅プロキシ(RESIP)は,従来のネットワークプロキシ(商用VPNなど)と比較して,特にデータセンタネットワークよりも住宅ネットワークへの展開,数万の都市やISPの世界的な分布,数百万のエグジットノードの大規模展開など,さまざまな特徴がある。 これらすべての要因により、RESIPユーザーは、特に悪意のあるオンライン活動においてRESIPサービスの普及につながる、真の住宅ユーザーからのトラフィックフローを効果的に調整することができる。 しかし、RESIP(すなわち、RESIPによってどのトラフィックが中継されるか)の使用について、現在の理解は不十分であることが判明した。 特に、以前のRESIPトラフィックの研究は、Webトラフィックの悪意と、人気のあるWebサイトを訪問する際の不審なパターンについてのみ研究していた。 また,大規模なRESIPトラフィックを捕捉し,セキュリティリスクに対するRESIPトラフィックを解析することに関して,一般的な手法が欠落している。 さらに、多くのRESIPノードが企業ネットワーク内にあり、デバイス所有者やネットワーク管理者の適切な許可なくデプロイされていることを考えると、現実的なRESIPトラフィックデータセットの不足や効果的な検出方法の欠如によって、RESIPトラフィックフローを検出してブロックする必要性が高まっている。 これらのギャップを埋めるために、RESIPノードをデプロイしてRESIPトラフィックを分散的に収集する一般的なフレームワーク、RESIPトラフィックログを効率的に処理して不審なトラフィックフローをサーフェスするRESIPトラヒックアナライザ、与えられたトラフィックフローがRESIPトラフィックであるか否かをタイムリーかつ正確に検出する複数の機械学習ベースのRESIPトラヒック分類器など、複数の新しいツールが設計され実装されている。

Emerging in recent years, residential proxies (RESIPs) feature multiple unique characteristics when compared with traditional network proxies (e.g., commercial VPNs), particularly, the deployment in residential networks rather than data center networks, the worldwide distribution in tens of thousands of cities and ISPs, and the large scale of millions of exit nodes. All these factors allow RESIP users to effectively masquerade their traffic flows as ones from authentic residential users, which leads to the increasing adoption of RESIP services, especially in malicious online activities. However, regarding the (malicious) usage of RESIPs (i.e., what traffic is relayed by RESIPs), current understanding turns out to be insufficient. Particularly, previous works on RESIP traffic studied only the maliciousness of web traffic destinations and the suspicious patterns of visiting popular websites. Also, a general methodology is missing regarding capturing large-scale RESIP traffic and analyzing RESIP traffic for security risks. Furthermore, considering many RESIP nodes are found to be located in corporate networks and are deployed without proper authorization from device owners or network administrators, it is becoming increasingly necessary to detect and block RESIP traffic flows, which unfortunately is impeded by the scarcity of realistic RESIP traffic datasets and effective detection methodologies. To fill in these gaps, multiple novel tools have been designed and implemented in this study, which include a general framework to deploy RESIP nodes and collect RESIP traffic in a distributed manner, a RESIP traffic analyzer to efficiently process RESIP traffic logs and surface out suspicious traffic flows, and multiple machine learning based RESIP traffic classifiers to timely and accurately detect whether a given traffic flow is RESIP traffic or not.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# MambaPupil: イベントベースのアイトラッキングのための双方向選択リカレントモデル

MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking ( http://arxiv.org/abs/2404.12083v2 )

ライセンス: Link先を確認
Zhong Wang, Zengyu Wan, Han Han, Bohao Liao, Yuliang Wu, Wei Zhai, Yang Cao, Zheng-jun Zha, (参考訳) イベントベースのアイトラッキングは、イベントカメラによって提供される高時間分解能と低冗長性で非常に有望である。 しかし、点眼、固定、サケード、スムーズな追跡を含む眼球運動パターンの多様性と急激な変化は、眼球運動の局所化に重大な課題をもたらす。 安定した事象に基づく視線追跡システムを実現するため,眼球運動の変動に応答し,時間的時間的情報を完全に活用する双方向の長期シーケンスモデリングと時間的状態選択機構を提案する。 具体的には、イベント表現から特徴を抽出する多層畳み込みエンコーダ、双方向GRU、LTV-SSM(Linear Time-Varying State Space Module)からなるMambaPupilネットワークを提案する。 さらに、Bina-repをコンパクトなイベント表現として利用し、イベント画像に空間ランダムマスキングを適用してモデルのロバスト性を高めるために、Event-Cutoutと呼ばれるテーラーメイドデータ拡張を提案する。 ThreeET-plusベンチマークの評価は、CVPR'2024 AISイベントベースのアイトラッキングチャレンジで1位を獲得したMambaPupilの優れた性能を示している。

Event-based eye tracking has shown great promise with the high temporal resolution and low redundancy provided by the event camera. However, the diversity and abruptness of eye movement patterns, including blinking, fixating, saccades, and smooth pursuit, pose significant challenges for eye localization. To achieve a stable event-based eye-tracking system, this paper proposes a bidirectional long-term sequence modeling and time-varying state selection mechanism to fully utilize contextual temporal information in response to the variability of eye movements. Specifically, the MambaPupil network is proposed, which consists of the multi-layer convolutional encoder to extract features from the event representations, a bidirectional Gated Recurrent Unit (GRU), and a Linear Time-Varying State Space Module (LTV-SSM), to selectively capture contextual correlation from the forward and backward temporal relationship. Furthermore, the Bina-rep is utilized as a compact event representation, and the tailor-made data augmentation, called as Event-Cutout, is proposed to enhance the model's robustness by applying spatial random masking to the event image. The evaluation on the ThreeET-plus benchmark shows the superior performance of the MambaPupil, which secured the 1st place in CVPR'2024 AIS Event-based Eye Tracking challenge.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# TrACT:ロングテール軌道予測のためのコントラスト学習フレームワークを意識したトレーニングダイナミクス

TrACT: A Training Dynamics Aware Contrastive Learning Framework for Long-tail Trajectory Prediction ( http://arxiv.org/abs/2404.12538v2 )

ライセンス: Link先を確認
Junrui Zhang, Mozhgan Pourkeshavarz, Amir Rasouli, (参考訳) 安全クリティカルタスクとして、自律走行には、特に困難な状況下での安全な運動計画のために、道路利用者の将来の軌跡を正確に予測する必要がある。 しかし、近年のディープラーニング手法の多くは、これらのシナリオがトレーニングデータにあまり現れないために、難易度の高いシナリオのパフォーマンス低下に悩まされている。 このような長い課題に対処するため、既存の手法では、トレーニング中に機能領域のシナリオをより緊密に組み合わせて、より堅牢な学習のために情報共有をトリガーする。 しかし、これらの手法は主にシナリオを特徴づける動きパターンに依存しており、インタラクションやシーンレイアウトといったより情報に富む情報を省略している。 このような情報を活用することで、予測精度が向上するだけでなく、生成された軌道のシーンコンプライアンスも向上する、と我々は主張する。 本稿では,よりリッチなトレーニングダイナミックス情報を原型的コントラスト学習フレームワークに組み込むことを提案する。 具体的には,2段階のプロセスを提案する。 まず、ベースラインエンコーダデコーダフレームワークを用いて、リッチなコンテキスト特徴を生成する。 これらの機能は、トレーニングダイナミクス情報を使用して、モデルの出力エラーに基づいてクラスタに分割され、各クラスタ内でプロトタイプが計算される。 第二に、比較学習フレームワークでプロトタイプを用いてモデルを再訓練する。 提案手法は,2つの大規模自然主義的データセットを用いて提案手法の実証評価を行い,提案手法の精度向上とロングテールサンプルのシーンコンプライアンスの実現により,最先端の性能を実現することを示す。 さらに、トレーニングバイアスを減らすためのアプローチのさらなるメリットを強調するために、クラスタのサブセットで実験を行います。

As a safety critical task, autonomous driving requires accurate predictions of road users' future trajectories for safe motion planning, particularly under challenging conditions. Yet, many recent deep learning methods suffer from a degraded performance on the challenging scenarios, mainly because these scenarios appear less frequently in the training data. To address such a long-tail issue, existing methods force challenging scenarios closer together in the feature space during training to trigger information sharing among them for more robust learning. These methods, however, primarily rely on the motion patterns to characterize scenarios, omitting more informative contextual information, such as interactions and scene layout. We argue that exploiting such information not only improves prediction accuracy but also scene compliance of the generated trajectories. In this paper, we propose to incorporate richer training dynamics information into a prototypical contrastive learning framework. More specifically, we propose a two-stage process. First, we generate rich contextual features using a baseline encoder-decoder framework. These features are split into clusters based on the model's output errors, using the training dynamics information, and a prototype is computed within each cluster. Second, we retrain the model using the prototypes in a contrastive learning framework. We conduct empirical evaluations of our approach using two large-scale naturalistic datasets and show that our method achieves state-of-the-art performance by improving accuracy and scene compliance on the long-tail samples. Furthermore, we perform experiments on a subset of the clusters to highlight the additional benefit of our approach in reducing training bias.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# PoseAnimate: ゼロショット高忠実ポーズコントロール可能なキャラクターアニメーション

PoseAnimate: Zero-shot high fidelity pose controllable character animation ( http://arxiv.org/abs/2404.13680v2 )

ライセンス: Link先を確認
Bingwen Zhu, Fanyi Wang, Tianyi Lu, Peng Liu, Jingwen Su, Jinxiu Liu, Yanhao Zhang, Zuxuan Wu, Yu-Gang Jiang, Guo-Jun Qi, (参考訳) I2V(Image-to-Video)生成は,画像の高時間的コヒーレンスと視覚的忠実度を必要とする単一画像から映像シーケンスを作成することを目的としているが,既存のアプローチでは文字の不整合や細部保存の難しさに悩まされている。 さらに、これらの制限に対処するため、文字アニメーションのための新しいゼロショットI2VフレームワークであるPoseAnimateを提案し、PoseAnimateには3つの重要なコンポーネントが含まれている。 1) Pose-Aware Control Module (PACM) は、さまざまなポーズ信号を条件付き埋め込みに組み込んで、文字非依存のコンテンツを保存し、動作の正確なアライメントを維持する。2) Dual Consistency Attention Module (DCAM) は、時間的整合性を高め、文字識別と複雑な背景の詳細を維持する。3) Mask-Guided Decoupling Module (MGDM) は、特徴認識を洗練し、文字と背景をデカップリングすることでアニメーションの忠実性を向上させる。また、PATA (Pose Alignment Transition Algorithm) を提案し、スムーズな動作遷移を保証する。 さらに、生成されたアニメーション全体を通して、高レベルの時間的コヒーレンスを維持している。

Image-to-video(I2V) generation aims to create a video sequence from a single image, which requires high temporal coherence and visual fidelity with the source image.However, existing approaches suffer from character appearance inconsistency and poor preservation of fine details. Moreover, they require a large amount of video data for training, which can be computationally demanding.To address these limitations,we propose PoseAnimate, a novel zero-shot I2V framework for character animation.PoseAnimate contains three key components: 1) Pose-Aware Control Module (PACM) incorporates diverse pose signals into conditional embeddings, to preserve character-independent content and maintain precise alignment of actions.2) Dual Consistency Attention Module (DCAM) enhances temporal consistency, and retains character identity and intricate background details.3) Mask-Guided Decoupling Module (MGDM) refines distinct feature perception, improving animation fidelity by decoupling the character and background.We also propose a Pose Alignment Transition Algorithm (PATA) to ensure smooth action transition.Extensive experiment results demonstrate that our approach outperforms the state-of-the-art training-based methods in terms of character consistency and detail fidelity. Moreover, it maintains a high level of temporal coherence throughout the generated animations.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-30
# 顔表情とマスク装着分類のためのクロスタスクマルチブランチ視覚変換器

Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification ( http://arxiv.org/abs/2404.14606v2 )

ライセンス: Link先を確認
Armando Zhu, Keqin Li, Tong Wu, Peng Zhao, Bo Hong, (参考訳) マスクが新しい文化規範となるにつれ、マスクを考慮した表情認識(FER)が大きな課題となっている。 本稿では,顔表情認識のための統合型マルチブランチ・ビジョン・トランスフォーマと,分類タスクを装着したマスクを提案する。 提案手法は,マルチスケールな特徴表現を得るデュアルブランチアーキテクチャを用いて,両タスクの共通特徴を抽出する。 さらに、クロスアテンションモジュールを用いて情報を交換しながら、各タスクのトークンを別々のブランチで処理するクロスタスク融合フェーズを提案する。 提案するフレームワークは, 単純かつ効果的なクロスタスク融合フェーズにより, 両方のタスクに個別のネットワークを使用する場合と比較して, 全体的な複雑性を低減させる。 大規模な実験により,提案手法は顔の表情認識と顔のマスマスキングの両面において,従来手法と同等以上の性能を示した。

With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for facial expression recognition and mask wearing classification tasks. Our approach extracts shared features for both tasks using a dual-branch architecture that obtains multi-scale feature representations. Furthermore, we propose a cross-task fusion phase that processes tokens for each task with separate branches, while exchanging information using a cross attention module. Our proposed framework reduces the overall complexity compared with using separate networks for both tasks by the simple yet effective cross-task fusion phase. Extensive experiments demonstrate that our proposed model performs better than or on par with different state-of-the-art methods on both facial expression recognition and facial mask wearing classification task.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-30
# インピーダンスマッチング:四足歩行ロボットのRLベースランニングジャンプの実現

Impedance Matching: Enabling an RL-Based Running Jump in a Quadruped Robot ( http://arxiv.org/abs/2404.15096v2 )

ライセンス: Link先を確認
Neil Guan, Shangqun Yu, Shifan Zhu, Donghyun Kim, (参考訳) 動物に見られる顕著な運動を再現することは、ロボット制御における長年の課題である。 強化学習(Reinforcement Learning, RL)は, 動的足の移動制御において顕著な進歩をみせているが, 実世界における実動運動の実証を妨げることがしばしばある。 本研究では,周波数領域解析に基づく実ロボットと実ロボットのインピーダンスマッチングにより,このギャップを緩和する新しい枠組みを提案する。 本フレームワークはパラメータ選択のための構造的ガイドラインとシミュレーションにおける動的ランダム化の範囲を提供し,より安全なsim-to-real転送を容易にする。 学習方針は, 55cm, 高さ38cmの距離を飛び越えることを可能にした。 その結果は、我々の知る限り、実四足歩行ロボットにおけるRLベースの制御ポリシーによって実証された最も高く、最長のジャンプの1つである。 得られたジャンプ高さの約85%は、与えられたロボットハードウェアの物理的限界と見なせる最先端の軌道最適化法から得られるものであることに注意されたい。 また,制御方針は,前後方向に最大2m/s,横方向に最大1m/sの速度で安定歩行を達成できた。

Replicating the remarkable athleticism seen in animals has long been a challenge in robotics control. Although Reinforcement Learning (RL) has demonstrated significant progress in dynamic legged locomotion control, the substantial sim-to-real gap often hinders the real-world demonstration of truly dynamic movements. We propose a new framework to mitigate this gap through frequency-domain analysis-based impedance matching between simulated and real robots. Our framework offers a structured guideline for parameter selection and the range for dynamics randomization in simulation, thus facilitating a safe sim-to-real transfer. The learned policy using our framework enabled jumps across distances of 55 cm and heights of 38 cm. The results are, to the best of our knowledge, one of the highest and longest running jumps demonstrated by an RL-based control policy in a real quadruped robot. Note that the achieved jumping height is approximately 85% of that obtained from a state-of-the-art trajectory optimization method, which can be seen as the physical limit for the given robot hardware. In addition, our control policy accomplished stable walking at speeds up to 2 m/s in the forward and backward directions, and 1 m/s in the sideway direction.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-30
# インストラクションチューニングはLLMをより一貫性のあるものにするか?

Does Instruction Tuning Make LLMs More Consistent? ( http://arxiv.org/abs/2404.15206v2 )

ライセンス: Link先を確認
Constanza Fierro, Jiaang Li, Anders Søgaard, (参考訳) 命令チューニングの目的は、ゼロショットのパフォーマンスを実現することであるが、命令チューニングはまた、チェーン・オブ・ソート推論と値アライメントを改善することが示されている(Si et al , 2023)。 ここでは、$\textit{consistency}$、すなわち入力の小さな摂動に対する言語モデルの感度への影響について考察する。 10個の命令調整されたLLaMAモデルと元のLLaMA-7bモデルを比較し、その表現とゼロショットタスクとダウンストリームタスクの予測の両方において、ほぼ一貫したものになることを示す。 本稿では,これらの改善について,実リコールの力学解析を通して説明する。

The purpose of instruction tuning is enabling zero-shot performance, but instruction tuning has also been shown to improve chain-of-thought reasoning and value alignment (Si et al., 2023). Here we consider the impact on $\textit{consistency}$, i.e., the sensitivity of language models to small perturbations in the input. We compare 10 instruction-tuned LLaMA models to the original LLaMA-7b model and show that almost across-the-board they become more consistent, both in terms of their representations and their predictions in zero-shot and downstream tasks. We explain these improvements through mechanistic analyses of factual recall.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-30
# 機械は意識あるか? : 機械意識の普遍的基準に向けて

Can a Machine be Conscious? Towards Universal Criteria for Machine Consciousness ( http://arxiv.org/abs/2404.15369v2 )

ライセンス: Link先を確認
Nur Aizaan Anwar, Cosmin Badea, (参考訳) 人為的に知的なシステムがより人為的かつ普及し、人間性への潜在的な影響がより緊急化するにつれ、機械意識の可能性に関する議論が激化しており、時には「聖杯」と呼ばれることもある。 多くの懸念が、人工的な意識を持つ実体を作るという影響についての声が上がっている。 これは、意識を構成するものに関する明確な合意の欠如と、意識を決定するための普遍的な基準の欠如によって構成される。 意識の基礎と特徴を深く掘り下げることで,機械が意識的かどうかを判断する5つの基準を提案する。 本論文は、哲学、コンピュータ科学、医学、その他の分野の研究者にとって、この哲学、神経科学、人工知能の聖杯をさらに追求するために、プライマーとして機能することを目的としている。

As artificially intelligent systems become more anthropomorphic and pervasive, and their potential impact on humanity more urgent, discussions about the possibility of machine consciousness have significantly intensified, and it is sometimes seen as 'the holy grail'. Many concerns have been voiced about the ramifications of creating an artificial conscious entity. This is compounded by a marked lack of consensus around what constitutes consciousness and by an absence of a universal set of criteria for determining consciousness. By going into depth on the foundations and characteristics of consciousness, we propose five criteria for determining whether a machine is conscious, which can also be applied more generally to any entity. This paper aims to serve as a primer and stepping stone for researchers of consciousness, be they in philosophy, computer science, medicine, or any other field, to further pursue this holy grail of philosophy, neuroscience and artificial intelligence.
翻訳日:2024-05-01 18:39:28 公開日:2024-04-30
# DelGrad: 送受信遅延と重みを学習するためのスパイキングネットワークの厳格な勾配

DelGrad: Exact gradients in spiking networks for learning transmission delays and weights ( http://arxiv.org/abs/2404.19165v1 )

ライセンス: Link先を確認
Julian Göltz, Jimmy Weber, Laura Kriener, Peter Lake, Melika Payvand, Mihai A. Petrovici, (参考訳) スパイキングニューラルネットワーク(SNN)は本質的には情報表現と処理のための信号のタイミングに依存している。 伝送遅延は、これらの時間特性を形成する上で重要な役割を果たす。 最近の研究は、精度とメモリ効率の両面で、これらの遅延をシナプス重みと共に学習する大きな利点を示している。 しかし、これらの手法は、離散時間と近似勾配で動作し、パラメータ更新を計算するために膜電位記録を必要とするため、精度と効率の面で欠点に悩まされている。 これらの問題を緩和するために、イベントベース方式で、シナプス重みと遅延の両方に関して、正確な損失勾配を計算するための分析的アプローチを提案する。 遅延の包含は、提案した形式主義の中に自然に現れ、時間次元でモデルの探索空間を豊かにする。 我々のアルゴリズムは、個々のスパイクのタイミングに基づいており、膜電位などの他の変数へのアクセスを必要としない。 軸索,樹状突起,シナプスの異なる種類の遅延の精度とパラメータ効率への影響を明示的に比較する。 さらに、SNNの学習可能な遅延に関するこれまでの研究は、主にソフトウェアシミュレーションに限られていたが、我々はBrainScaleS-2ニューロモルフィックプラットフォームにおける我々のアプローチの機能と利点を実証した。

Spiking neural networks (SNNs) inherently rely on the timing of signals for representing and processing information. Transmission delays play an important role in shaping these temporal characteristics. Recent work has demonstrated the substantial advantages of learning these delays along with synaptic weights, both in terms of accuracy and memory efficiency. However, these approaches suffer from drawbacks in terms of precision and efficiency, as they operate in discrete time and with approximate gradients, while also requiring membrane potential recordings for calculating parameter updates. To alleviate these issues, we propose an analytical approach for calculating exact loss gradients with respect to both synaptic weights and delays in an event-based fashion. The inclusion of delays emerges naturally within our proposed formalism, enriching the model's search space with a temporal dimension. Our algorithm is purely based on the timing of individual spikes and does not require access to other variables such as membrane potentials. We explicitly compare the impact on accuracy and parameter efficiency of different types of delays - axonal, dendritic and synaptic. Furthermore, while previous work on learnable delays in SNNs has been mostly confined to software simulations, we demonstrate the functionality and benefits of our approach on the BrainScaleS-2 neuromorphic platform.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-30
# PEVA-Net:Zero/Few-Shot Multi-View 3D Shape Recognitionのためのプロンプト強化ビューアグリゲーションネットワーク

PEVA-Net: Prompt-Enhanced View Aggregation Network for Zero/Few-Shot Multi-View 3D Shape Recognition ( http://arxiv.org/abs/2404.19168v1 )

ライセンス: Link先を確認
Dongyun Lin, Yi Cheng, Shangbo Mao, Aiyuan Guo, Yiqun Li, (参考訳) 大規模な視覚言語モデルは、ゼロ/フェーショットシナリオ下での2次元視覚認識の性能を著しく向上させてきた。 本稿では,多視点表現に基づくゼロ/フェーショット3次元形状認識を実現するために,大規模視覚言語モデルであるCLIPを活用することに焦点を当てる。 両タスクの鍵となる課題は、明示的な訓練(ゼロショット3D形状認識)や限られた数のデータ(フェーショット3D形状認識)を伴わないシナリオにおいて、複数のビューイメージで表現される3次元形状の識別記述子を生成することである。 両タスクが関連性があり,同時に検討可能であることを解析する。 具体的には、ゼロショット推論に有効なデクリプタを活用して、数発のトレーニングで集約されたデクリプタのチューニングをガイドすることにより、数発の学習効率を大幅に向上させることができる。 そこで我々は,0/fwショットの3D形状認識を同時に行うために,Prompt-Enhanced View Aggregation Network (PEVA-Net)を提案する。 ゼロショットのシナリオでは、候補カテゴリから構築されたプロンプトを活用し、複数のビュー関連視覚特徴の集約プロセスを強化する。 集約された特徴は、3D形状を効果的にゼロショット認識するのに役立ちます。 数ショットのシナリオでは、まずトランスフォーマーエンコーダを使用して、ビュー関連視覚的特徴をグローバルな記述子に集約する。 エンコーダを主分類損失とともに調整するために,ゼロショットディスクリプタを少数ショットディスクリプタの誘導信号として扱うことにより,特徴蒸留損失による自己蒸留方式を提案する。 このスキームは、数発の学習効率を大幅に向上させることができる。

Large vision-language models have impressively promote the performance of 2D visual recognition under zero/few-shot scenarios. In this paper, we focus on exploiting the large vision-language model, i.e., CLIP, to address zero/few-shot 3D shape recognition based on multi-view representations. The key challenge for both tasks is to generate a discriminative descriptor of the 3D shape represented by multiple view images under the scenarios of either without explicit training (zero-shot 3D shape recognition) or training with a limited number of data (few-shot 3D shape recognition). We analyze that both tasks are relevant and can be considered simultaneously. Specifically, leveraging the descriptor which is effective for zero-shot inference to guide the tuning of the aggregated descriptor under the few-shot training can significantly improve the few-shot learning efficacy. Hence, we propose Prompt-Enhanced View Aggregation Network (PEVA-Net) to simultaneously address zero/few-shot 3D shape recognition. Under the zero-shot scenario, we propose to leverage the prompts built up from candidate categories to enhance the aggregation process of multiple view-associated visual features. The resulting aggregated feature serves for effective zero-shot recognition of the 3D shapes. Under the few-shot scenario, we first exploit a transformer encoder to aggregate the view-associated visual features into a global descriptor. To tune the encoder, together with the main classification loss, we propose a self-distillation scheme via a feature distillation loss by treating the zero-shot descriptor as the guidance signal for the few-shot descriptor. This scheme can significantly enhance the few-shot learning efficacy.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-30
# 一般化可能なクロスモーダルディープフェイク検出のための明示的相関学習

Explicit Correlation Learning for Generalizable Cross-Modal Deepfake Detection ( http://arxiv.org/abs/2404.19171v1 )

ライセンス: Link先を確認
Cai Yu, Shan Jia, Xiaomeng Fu, Jin Liu, Jiahe Tian, Jiao Dai, Xi Wang, Siwei Lyu, Jizhong Han, (参考訳) ディープフェイクの普及に伴い、様々なディープフェイクの一般的な検出方法の開発への関心が高まっている。 特定のモダリティにおいて有効であるが、従来の検出手法は、多様なクロスモーダルなディープフェイクをまたいだ検出の一般化性に対処するには不十分である。 本稿では,様々な生成シナリオに対するディープフェイク検出を強化するために,潜在的なモーダル間相関を明示的に学習することを目的とする。 本手法では,コンテンツ情報に基づく相互相関をモデル化した相関蒸留タスクを提案する。 この戦略は、モデルが単にオーディオと視覚の同期に過度に適合することを防ぐのに役立つ。 さらに,クロスモーダルディープフェイク・データセット (CMDFD) を提案する。 CMDFDおよびFakeAVCelebデータセットによる実験結果から,既存の最先端手法よりも優れた一般化性を示した。 コードとデータは \url{https://github.com/lj898/CMDFD-Dataset-and-Deepfake-Detection} で確認できます。

With the rising prevalence of deepfakes, there is a growing interest in developing generalizable detection methods for various types of deepfakes. While effective in their specific modalities, traditional detection methods fall short in addressing the generalizability of detection across diverse cross-modal deepfakes. This paper aims to explicitly learn potential cross-modal correlation to enhance deepfake detection towards various generation scenarios. Our approach introduces a correlation distillation task, which models the inherent cross-modal correlation based on content information. This strategy helps to prevent the model from overfitting merely to audio-visual synchronization. Additionally, we present the Cross-Modal Deepfake Dataset (CMDFD), a comprehensive dataset with four generation methods to evaluate the detection of diverse cross-modal deepfakes. The experimental results on CMDFD and FakeAVCeleb datasets demonstrate the superior generalizability of our method over existing state-of-the-art methods. Our code and data can be found at \url{https://github.com/ljj898/CMDFD-Dataset-and-Deepfake-Detection}.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-30
# ハミルトニアンおよびウェーブファンクションアンザッツにおける電子相関の右バランス

Striking the Right Balance of Encoding Electron Correlation in the Hamiltonian and the Wavefunction Ansatz ( http://arxiv.org/abs/2404.19172v1 )

ライセンス: Link先を確認
Kalman Szenes, Maximilian Moerchen, Paul Fischill, Markus Reiher, (参考訳) 多重構成電子構造理論は、電子励起から開殻分子、化学反応まで、あらゆる種類の変換を扱うのに十分な柔軟性を持つ多電子波動関数に最も多彩な近似を与える。 したがって、多構成モデルは、化学の普遍的に適用可能な予測的アブイニシアト法を確立するために不可欠である。 本稿では,マルチコンフィグレーション能動空間アプローチにおける静的電子相関と動的電子相関の問題に対処する明示的相関手法について論じる。 最新の開発状況をレビューし、主要な障害を指摘します。 我々の議論はテンソルネットワーク法で得られた新しいデータによって支えられている。 我々は、分子構造に依存しない超相関モデルを定義することができる単純な電子のみの相関式を支持する。

Multi-configurational electronic structure theory delivers the most versatile approximations to many-electron wavefunctions, flexible enough to deal with all sorts of transformations, ranging from electronic excitations, to open-shell molecules and chemical reactions. Multi-configurational models are therefore essential to establish universally applicable, predictive ab initio methods for chemistry. Here, we present a discussion of explicit correlation approaches which address the nagging problem of dealing with static and dynamic electron correlation in multi-configurational active-space approaches. We review the latest developments and then point to their key obstacles. Our discussion is supported by new data obtained with tensor network methods. We argue in favor of simple electrons-only correlator expressions that may allow one to define transcorrelated models in which the correlator does not bear a dependence on molecular structure.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-30
# XFeat: 軽量画像マッチングのためのアクセラレーション機能

XFeat: Accelerated Features for Lightweight Image Matching ( http://arxiv.org/abs/2404.19174v1 )

ライセンス: Link先を確認
Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. Nascimento, (参考訳) 資源効率のよい視覚対応のための軽量で正確なアーキテクチャを提案する。 我々の手法はXFeat(Accelerated Features)と呼ばれ、局所特徴の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本設計選択を再考する。 我々の新しいモデルは、リソース制限されたデバイスに適した高速で堅牢なアルゴリズムに対する重要なニーズを満たす。 特に、正確な画像マッチングには十分な画像解像度が必要であり、そのため、ネットワーク内のチャネル数を制限しながら、解像度を可能な限り大きく保ちます。 さらに、我々のモデルはスパースレベルやセミセンスレベルのマッチングを選択できるように設計されており、それぞれがビジュアルナビゲーションや拡張現実など、さまざまな下流アプリケーションに適している可能性がある。 我々のモデルは、粗い局所記述子に依存した新しいマッチングリファインメントモジュールを利用して、半深度マッチングを効率的に提供する最初のモデルである。 XFeatは汎用的でハードウェアに依存しない、現在のディープラーニングベースのローカル機能(最大5倍高速)を上回り、ポーズ推定と視覚的ローカライゼーションで証明されている。 特別なハードウェア最適化をせずに、安価なラップトップCPU上でリアルタイムに動作することを示す。 コードとウェイトはwww.verlab.dcc.ufmg.br/descriptors/xfeat_cvpr24で入手できる。

We introduce a lightweight and accurate architecture for resource-efficient visual correspondence. Our method, dubbed XFeat (Accelerated Features), revisits fundamental design choices in convolutional neural networks for detecting, extracting, and matching local features. Our new model satisfies a critical need for fast and robust algorithms suitable to resource-limited devices. In particular, accurate image matching requires sufficiently large image resolutions - for this reason, we keep the resolution as large as possible while limiting the number of channels in the network. Besides, our model is designed to offer the choice of matching at the sparse or semi-dense levels, each of which may be more suitable for different downstream applications, such as visual navigation and augmented reality. Our model is the first to offer semi-dense matching efficiently, leveraging a novel match refinement module that relies on coarse local descriptors. XFeat is versatile and hardware-independent, surpassing current deep learning-based local features in speed (up to 5x faster) with comparable or better accuracy, proven in pose estimation and visual localization. We showcase it running in real-time on an inexpensive laptop CPU without specialized hardware optimizations. Code and weights are available at www.verlab.dcc.ufmg.br/descriptors/xfeat_cvpr24.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-30
# Game-MUG:マルチモーダル指向ゲームコンテクスト理解とコメント生成データセット

Game-MUG: Multimodal Oriented Game Situation Understanding and Commentary Generation Dataset ( http://arxiv.org/abs/2404.19175v1 )

ライセンス: Link先を確認
Zhihao Zhang, Feiqi Cao, Yingbin Mo, Yiran Zhang, Josiah Poon, Caren Han, (参考訳) エスポートのダイナミックな性質は、平均的な視聴者にとって比較的複雑である。 スポーツ放送にはゲーム専門家のキャスターが関与するが、キャスターに依存したゲーム解説はゲーム状況を完全に理解するには不十分である。 多様なマルチモーダルエスポート情報、聴衆の講演/感情、ゲームオーディオ、ゲームマッチイベント情報を含むことにより、よりリッチになる。 本稿では,新しいマルチモーダルゲーム状況理解とオーディエンスによるコメント生成データセットであるGAME-MUGとその強力なベースラインを紹介する。 我々のデータセットは、2020-2022年のYouTubeとTwitchのライブストリームから収集され、ゲーム状況を検出するためのテキスト、オーディオ、時系列イベントログを含むマルチモーダルEスポーツゲーム情報を含んでいる。 さらに,ゲーム状況とオーディエンス会話理解をカバーし,ベースラインとして頑健なマルチモーダル・デュアルラーニングモデルを導入することで,新たなオーディエンス会話強調データセットを提案する。 本稿では,マルチモーダル・アスペクト・カバレッジと統合学習手法の有効性を示すために,モデルのゲーム状況/イベント理解能力と注釈生成能力について検討する。

The dynamic nature of esports makes the situation relatively complicated for average viewers. Esports broadcasting involves game expert casters, but the caster-dependent game commentary is not enough to fully understand the game situation. It will be richer by including diverse multimodal esports information, including audiences' talks/emotions, game audio, and game match event information. This paper introduces GAME-MUG, a new multimodal game situation understanding and audience-engaged commentary generation dataset and its strong baseline. Our dataset is collected from 2020-2022 LOL game live streams from YouTube and Twitch, and includes multimodal esports game information, including text, audio, and time-series event logs, for detecting the game situation. In addition, we also propose a new audience conversation augmented commentary dataset by covering the game situation and audience conversation understanding, and introducing a robust joint multimodal dual learning model as a baseline. We examine the model's game situation/event understanding ability and commentary generation capability to show the effectiveness of the multimodal aspects coverage and the joint integration learning approach.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# リベンジ・オブ・ザ・フォールエン : 人間の言語理解度を予測したリカレントモデル

Revenge of the Fallen? Recurrent Models Match Transformers at Predicting Human Language Comprehension Metrics ( http://arxiv.org/abs/2404.19178v1 )

ライセンス: Link先を確認
James A. Michaelov, Catherine Arnett, Benjamin K. Bergen, (参考訳) トランスフォーマーは、リカレントニューラルネットワークを、自然言語処理タスクの主流アーキテクチャとして、そしてオンラインの人間の理解に対する予測可能性の影響をモデル化するために、認知的不確実性に対する批判にもかかわらず、置き換えてきた。 しかし、最近開発された2つのリカレントニューラルネットワークアーキテクチャ、RWKVとMambaは、等価スケールのトランスフォーマーと互換性のある自然言語タスクを実行しているように見える。 本稿では,現代のリカレントモデルでも,オンライン・ヒューマン・言語理解のモデル化において,比較可能な大きさの変換器の性能を上回る結果が得られることを示す。 このことは、トランスフォーマー言語モデルは、このタスクに一意に適していないことを示唆し、言語モデルのアーキテクチャ的特徴が人間の言語理解のモデルをより良く、より悪いものにするのかについての議論のための新しい方向性を開くことを示唆している。

Transformers have supplanted Recurrent Neural Networks as the dominant architecture for both natural language processing tasks and, despite criticisms of cognitive implausibility, for modelling the effect of predictability on online human language comprehension. However, two recently developed recurrent neural network architectures, RWKV and Mamba, appear to perform natural language tasks comparably to or better than transformers of equivalent scale. In this paper, we show that contemporary recurrent models are now also able to match - and in some cases, exceed - performance of comparably sized transformers at modeling online human language comprehension. This suggests that transformer language models are not uniquely suited to this task, and opens up new directions for debates about the extent to which architectural features of language models make them better or worse models of human language comprehension.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# ポスト量子暗号の数学的基礎

The Mathematical Foundation of Post-Quantum Cryptography ( http://arxiv.org/abs/2404.19186v1 )

ライセンス: Link先を確認
Chuanming Zong, (参考訳) 2022年7月5日、国立標準技術研究所は、量子後暗号標準の4つを公表し、そのうち3つは格子理論に基づくもので、もう1つはハッシュ関数に基づくものである。 格子暗号のセキュリティは、最短ベクトル問題(SVP)と最短ベクトル問題(CVP)の硬さに依存することが知られている。 実際、SVPは球充填問題であり、CVPは球被覆問題である。 さらに、SVP と CVP はともに正定値二次形式の算術問題と等価である。 本稿では,量子後暗号を簡潔に紹介し,球包装,球被覆,正定2次形式との関係を示す。

On July 5, 2022, the National Institute of Standards and Technology announced four possible post-quantum cryptography standards, three of them are based on lattice theory and the other one is based on Hash function. It is well-known that the security of the lattice cryptography relies on the hardness of the shortest vector problem (SVP) and the closest vector problem (CVP). In fact, the SVP is a sphere packing problem and the CVP is a sphere covering problem. Furthermore, both SVP and CVP are equivalent to arithmetic problems of positive definite quadratic forms. This paper will briefly introduce the post-quantum cryptography and show its connections with sphere packing, sphere covering, and positive definite quadratic forms.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# 名前付きエンティティ認識のためのエキスパート言語モデルの混合

Mix of Experts Language Model for Named Entity Recognition ( http://arxiv.org/abs/2404.19192v1 )

ライセンス: Link先を確認
Xinwei Chen, Kun Li, Tianyou Song, Jiangjian Guo, (参考訳) 名前付きエンティティ認識(NER)は自然言語処理の分野における重要な基盤である。 様々な遠隔教師付きモデルによって有望な性能が達成されているが、遠方の監督は必然的に不完全でノイズの多いアノテーションを導入し、モデルトレーニングプロセスを誤解させる可能性があると論じている。 この問題に対処するために,Mixture of Experts (MoE) に基づく頑健なNERモデルBOND-MoEを提案する。 NER予測の単一モデルに頼るのではなく、期待最大化(EM)フレームワークの下で複数のモデルをトレーニングし、アンサンブルすることで、ノイズの多い監視を劇的に緩和することができる。 さらに,文書モデルの割当処理のバランスをとるために,公平な割当モジュールを導入する。 実世界のデータセットに対する大規模な実験により,提案手法は,他の遠隔教師付きNERと比較して最先端の性能を実現することが示された。

Named Entity Recognition (NER) is an essential steppingstone in the field of natural language processing. Although promising performance has been achieved by various distantly supervised models, we argue that distant supervision inevitably introduces incomplete and noisy annotations, which may mislead the model training process. To address this issue, we propose a robust NER model named BOND-MoE based on Mixture of Experts (MoE). Instead of relying on a single model for NER prediction, multiple models are trained and ensembled under the Expectation-Maximization (EM) framework, so that noisy supervision can be dramatically alleviated. In addition, we introduce a fair assignment module to balance the document-model assignment process. Extensive experiments on real-world datasets show that the proposed method achieves state-of-the-art performance compared with other distantly supervised NER.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# 超伝導回路における近距離非線形光物質結合

Near-ultrastrong nonlinear light-matter coupling in superconducting circuits ( http://arxiv.org/abs/2404.19199v1 )

ライセンス: Link先を確認
Yufeng Ye, Jeremy B. Kline, Alec Yen, Gregory Cunningham, Max Tan, Alicia Zang, Michael Gingras, Bethany M. Niedzielski, Hannah Stickler, Kyle Serniak, Mollie E. Schwartz, Kevin P. O'Brien, (参考訳) 原子と共振器の電磁モードの相互作用は基本的関心事であり、量子技術においてユビキタスである。 多くの先行研究は、$g \widehat{\sigma}_x (\widehat{a} + \widehat{a}^\dagger)$という形の線形光物質結合を研究しており、ここで、$g$はフォトニック(\omega_a$)およびアトミック(\omega_b$)モードの周波数は超強規則(g/\omega_{a}\! >\! 10^{-1}$)。 対照的に、$\frac{\chi}{2} \widehat{\sigma}_z \widehat{a}^\dagger \widehat{a}$ という形の非線形光物質結合は、原子$\widehat{\sigma}_z$ とフォトニック $\widehat{a}^\dagger\widehat{a}$ Hamiltonian との交換の利点があり、量子非破壊測定のような基本的な操作を可能にする。 しかし、非線形結合の摂動的性質のため、最先端の $\chi/\text{max}(\omega_a, \omega_b)$ は $\! <\! 10-2 ドル。 ここでは、クォートンカップラを特徴とする超伝導回路アーキテクチャを用いて、超伝導人工原子とニアリニア共振器との非線形結合を初めて実証する。 また、光の非線形結合 (\chi\widehat{a}^\dagger\widehat{a}\widehat{b}^\dagger\widehat{b}$) と$\chi/2\pi = 580.3 \pm 0.4 $ MHz matter-matter linear coupling (\frac{\chi}{4}\widehat{\sigma}_{z,a}\widehat{\sigma}_{z,b}$) のシグネチャを示す。 このような光の非線形結合強度の進歩、物質モードは新たな物理レシエーションを可能にし、より高速な量子ビットの読み出しやゲートのような応用につながる可能性がある。

The interaction between an atom and an electromagnetic mode of a resonator is of both fundamental interest and is ubiquitous in quantum technologies. Most prior work studies a linear light-matter coupling of the form $g \widehat{\sigma}_x (\widehat{a} + \widehat{a}^\dagger)$, where $g$ measured relative to photonic ($\omega_a$) and atomic ($\omega_b$) mode frequencies can reach the ultrastrong regime ($g/\omega_{a}\!>\!10^{-1}$). In contrast, a nonlinear light-matter coupling of the form $\frac{\chi}{2} \widehat{\sigma}_z \widehat{a}^\dagger \widehat{a}$ has the advantage of commuting with the atomic $\widehat{\sigma}_z$ and photonic $\widehat{a}^\dagger\widehat{a}$ Hamiltonian, allowing for fundamental operations such as quantum-non-demolition measurement. However, due to the perturbative nature of nonlinear coupling, the state-of-the-art $\chi/\text{max}(\omega_a, \omega_b)$ is limited to $\!<\!10^{-2}$. Here, we use a superconducting circuit architecture featuring a quarton coupler to experimentally demonstrate, for the first time, a near-ultrastrong $\chi/\text{max}(\omega_a, \omega_b)= (4.852\pm0.006)\times10^{-2}$ nonlinear coupling of a superconducting artificial atom and a nearly-linear resonator. We also show signatures of light-light nonlinear coupling ($\chi\widehat{a}^\dagger\widehat{a}\widehat{b}^\dagger\widehat{b}$), and $\chi/2\pi = 580.3 \pm 0.4 $ MHz matter-matter nonlinear coupling ($\frac{\chi}{4}\widehat{\sigma}_{z,a}\widehat{\sigma}_{z,b}$) which represents the largest reported $ZZ$ interaction between two coherent qubits. Such advances in the nonlinear coupling strength of light, matter modes enable new physical regimes and could lead to applications such as orders of magnitude faster qubit readout and gates.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# Global Search Optics:Computational Imaging System のための最適解の自動探索

Global Search Optics: Automatically Exploring Optimal Solutions to Compact Computational Imaging Systems ( http://arxiv.org/abs/2404.19201v1 )

ライセンス: Link先を確認
Yao Gao, Qi Jiang, Shaohua Gao, Lei Sun, Kailun Yang, Kaiwei Wang, (参考訳) モバイルビジョンの人気は、軽量光学系と効果的な画像再構成モデルの両方を開発することを要求する、高度なコンパクトなコンピュータ画像システムへの需要を生み出している。 最近、共同設計パイプラインが研究の最前線に登場し、2つの重要なコンポーネントがデータ駆動学習によって同時に最適化され、最適なシステム設計が実現されている。 しかし、これらの設計の有効性は光学系の初期設定に大きく依存しており、非凸解空間によって複雑化され、地球規模の最適解に到達することを妨げている。 本稿では,GSO(Global Search Optics)を用いて,2つの部分を通して,コンパクトな計算画像システムを自動的に設計する。 一 特定設計仕様に基づく多様な初期光学系を探索する自動光学設計のための融合最適化方法(オプティフュージョン) (II) 物理制約を考慮した初期光学系と画像再構成ネットワークの並列結合最適化を行うEPJO(Efficient Physic-Aware Joint Optimization)により, 最適解の選択が決定される。 3ピース(3P)の球面計算画像システムの設計に関する大規模な実験結果から、GSOは、従来の手法に比べて高画質のコンパクトな計算画像システムを提供する優れた大域的最適構造探索能力のための、変換可能なエンドツーエンドのレンズ設計パラダイムとして機能することが示された。 ソースコードはhttps://github.com/wumengshenyou/GSOで公開されます。

The popularity of mobile vision creates a demand for advanced compact computational imaging systems, which call for the development of both a lightweight optical system and an effective image reconstruction model. Recently, joint design pipelines come to the research forefront, where the two significant components are simultaneously optimized via data-driven learning to realize the optimal system design. However, the effectiveness of these designs largely depends on the initial setup of the optical system, complicated by a non-convex solution space that impedes reaching a globally optimal solution. In this work, we present Global Search Optics (GSO) to automatically design compact computational imaging systems through two parts: (i) Fused Optimization Method for Automatic Optical Design (OptiFusion), which searches for diverse initial optical systems under certain design specifications; and (ii) Efficient Physic-aware Joint Optimization (EPJO), which conducts parallel joint optimization of initial optical systems and image reconstruction networks with the consideration of physical constraints, culminating in the selection of the optimal solution. Extensive experimental results on the design of three-piece (3P) sphere computational imaging systems illustrate that the GSO serves as a transformative end-to-end lens design paradigm for superior global optimal structure searching ability, which provides compact computational imaging systems with higher imaging quality compared to traditional methods. The source code will be made publicly available at https://github.com/wumengshenyou/GSO.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# NeRF-Insert:マルチモーダル制御信号を用いた3次元局所編集

NeRF-Insert: 3D Local Editing with Multimodal Control Signals ( http://arxiv.org/abs/2404.19204v1 )

ライセンス: Link先を確認
Benet Oriol Sabat, Alessandro Achille, Matthew Trager, Stefano Soatto, (参考訳) 本研究では,NeRF編集フレームワークであるNeRF-Insertを提案する。 イメージ・ツー・イメージ・モデルに依存した以前の作品とは異なり、シーン編集は画中の問題であり、シーンのグローバルな構造を保存することを奨励する。 さらに,既存のほとんどの手法では条件編集にテキストプロンプトしか使用していないが,本フレームワークでは異なるモーダルの入力の組み合わせを参照として受け入れている。 より正確には、3D領域を指定するための画像、CADモデル、バイナリ画像マスクを含むテキスト入力と視覚入力の組み合わせを提供することができる。 汎用画像生成モデルを用いて、複数の視点からシーンをインペイントし、局所的な編集を3D一貫性のNeRF編集に引き上げる。 従来の方法と比較すると, 視覚的品質が向上し, 元のNeRFとの整合性も向上した。

We propose NeRF-Insert, a NeRF editing framework that allows users to make high-quality local edits with a flexible level of control. Unlike previous work that relied on image-to-image models, we cast scene editing as an in-painting problem, which encourages the global structure of the scene to be preserved. Moreover, while most existing methods use only textual prompts to condition edits, our framework accepts a combination of inputs of different modalities as reference. More precisely, a user may provide a combination of textual and visual inputs including images, CAD models, and binary image masks for specifying a 3D region. We use generic image generation models to in-paint the scene from multiple viewpoints, and lift the local edits to a 3D-consistent NeRF edit. Compared to previous methods, our results show better visual quality and also maintain stronger consistency with the original NeRF.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# TableVQA-Bench: 複数のテーブルドメインのベンチマークを視覚的に答える

TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains ( http://arxiv.org/abs/2404.19205v1 )

ライセンス: Link先を確認
Yoonsik Kim, Moonbin Yim, Ka Yeon Song, (参考訳) 本稿では,既存のテーブル質問回答(QA)とテーブル構造認識データセットから得られたテーブル視覚質問応答(TableVQA-Bench)のベンチマークを確立する。 既存のデータセットには、TableVQAの重要な2つのコンポーネントであるイメージやQAペアが組み込まれていない点に注意が必要だ。 したがって,本論文の主な目的は,これらの必要な構成要素を得ることである。 具体的には、画像は \textit{stylesheet} のアプリケーションまたは提案したテーブルレンダリングシステムを用いてソースされる。 QAペアは、入力がテキスト形式のテーブルである大きな言語モデル(LLM)を利用して生成される。 最終的に完成したTableVQA-Benchは1500QAペアで構成されている。 本研究では,TableVQA-Bench上での多モード大言語モデル(MLLM)の性能を総合的に比較する。 GPT-4Vは商用およびオープンソースMLLMの中で最も精度が高い。 さらに,TableVQAの性能において,視覚的クエリの数が重要な役割を担っていることが判明した。 LLMのバックボーンと比較して,MLLMの機能を更に分析するために,画像整形テーブルをMLLMに,テキスト整形テーブルをLSMに,それぞれ提示して検討する。 この結果から,MLLMよりも計算コストが高いにもかかわらず,MLLMの低性能が示すように,テキスト入力よりも視覚入力の処理が困難であることが示唆された。 提案された TableVQA-Bench と評価コードは \href{https://github.com/naver-ai/tablevqabench}{https://github.com/naver-ai/tablevqabench} で公開されている。

In this paper, we establish a benchmark for table visual question answering, referred to as the TableVQA-Bench, derived from pre-existing table question-answering (QA) and table structure recognition datasets. It is important to note that existing datasets have not incorporated images or QA pairs, which are two crucial components of TableVQA. As such, the primary objective of this paper is to obtain these necessary components. Specifically, images are sourced either through the application of a \textit{stylesheet} or by employing the proposed table rendering system. QA pairs are generated by exploiting the large language model (LLM) where the input is a text-formatted table. Ultimately, the completed TableVQA-Bench comprises 1,500 QA pairs. We comprehensively compare the performance of various multi-modal large language models (MLLMs) on TableVQA-Bench. GPT-4V achieves the highest accuracy among commercial and open-sourced MLLMs from our experiments. Moreover, we discover that the number of vision queries plays a significant role in TableVQA performance. To further analyze the capabilities of MLLMs in comparison to their LLM backbones, we investigate by presenting image-formatted tables to MLLMs and text-formatted tables to LLMs, respectively. Our findings suggest that processing visual inputs is more challenging than text inputs, as evidenced by the lower performance of MLLMs, despite generally requiring higher computational costs than LLMs. The proposed TableVQA-Bench and evaluation codes are available at \href{https://github.com/naver-ai/tablevqabench}{https://github.com/naver-ai/tablevqabench}.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# トリプリ効率のシャドウトモグラフィー

Triply efficient shadow tomography ( http://arxiv.org/abs/2404.19211v1 )

ライセンス: Link先を確認
Robbie King, David Gosset, Robin Kothari, Ryan Babbush, (参考訳) 量子状態 $\rho$ のコピーを与えられた場合、シャドウトモグラフィープロトコルは、固定された可観測物の集合から与えられた精度$\epsilon$ の全ての期待値を学ぶことを目的としている。 シャドウトモグラフィープロトコルは、サンプリングと時間効率が三重に効率的であり、一度に$\rho$の一定数のコピーを絡める測定のみを用いる。 ランダムな単一コピー測定に基づく古典的なシャドウプロトコルは、局所的なパウリ観測可能な集合に対して三重に効率的である。 ランダムな単一コピー Clifford 測定に基づくその他のプロトコルは、可観測物の集合の可換構造を符号化するグラフ $G$ の分数色付けから生じるものと解釈できる。 ここでは,有界傾斜数を持つ$G$のサブグラフにおいて,ベル測定の初期ラウンドを用いて,分数カラー化問題に還元する2コピ影断層撮影の枠組みについて述べる。 この着色問題は、chi-boundednessとして知られるグラフ理論の技法を用いて解決することができる。 この枠組みを用いることで、物理や化学における相互作用するフェルミオン系において生じる局所フェルミオン可観測物の集合に対して、最初の三重効率なシャドウトモグラフィースキームを与える。 また、すべての$n$-qubit Pauli観測可能な集合に対して、三重に効率的なスキームを与える。 これらのタスクのためのプロトコルは2つのコピー計測を使用するが、これは必要である: 単コピー測定のみを用いることで、サンプル効率の高いスキームは証明不可能である。 最後に、$n$-qubit量子状態から$\text{poly}(n)$サイズの古典的表現に圧縮するシャドウトモグラフィープロトコルを与え、そこから$\text{poly}(n)$時間において$4^n$ Pauli観測可能のいずれの期待値も抽出できる。

Given copies of a quantum state $\rho$, a shadow tomography protocol aims to learn all expectation values from a fixed set of observables, to within a given precision $\epsilon$. We say that a shadow tomography protocol is triply efficient if it is sample- and time-efficient, and only employs measurements that entangle a constant number of copies of $\rho$ at a time. The classical shadows protocol based on random single-copy measurements is triply efficient for the set of local Pauli observables. This and other protocols based on random single-copy Clifford measurements can be understood as arising from fractional colorings of a graph $G$ that encodes the commutation structure of the set of observables. Here we describe a framework for two-copy shadow tomography that uses an initial round of Bell measurements to reduce to a fractional coloring problem in an induced subgraph of $G$ with bounded clique number. This coloring problem can be addressed using techniques from graph theory known as chi-boundedness. Using this framework we give the first triply efficient shadow tomography scheme for the set of local fermionic observables, which arise in a broad class of interacting fermionic systems in physics and chemistry. We also give a triply efficient scheme for the set of all $n$-qubit Pauli observables. Our protocols for these tasks use two-copy measurements, which is necessary: sample-efficient schemes are provably impossible using only single-copy measurements. Finally, we give a shadow tomography protocol that compresses an $n$-qubit quantum state into a $\text{poly}(n)$-sized classical representation, from which one can extract the expected value of any of the $4^n$ Pauli observables in $\text{poly}(n)$ time, up to a small constant error.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# ウンルーチャネルの探索のための最適量子戦略

Optimal quantum strategy for locating Unruh channels ( http://arxiv.org/abs/2404.19216v1 )

ライセンス: Link先を確認
Qianqian Liu, Tonghua Liu, Cuihong Wen, Jieci Wang, (参考訳) 量子情報理論の観点からは、2レベル加速検出器に対するウンルー放射の影響を量子チャネルとしてモデル化することができる。 本研究では,Unruhチャネルの特定にチャネル配置探索のツールを用いる。 信号イドラーとアイドラーフリーのプロトコルを探索し、対象のUnruhチャネルの位置をバックグラウンドチャネルのシーケンス内で決定する。 我々は,各戦略の最終的な誤差確率に対する忠実度に基づく境界を導出し,アイドラーフリー状態を含むプロトコルよりも信号イドラープロトコルが優れている条件を得る。 信号イドラー方式の誤差確率の低い境界は、全ての場合において明らかな利点を示すが、イドラーフリー方式は、2つのチャネルの温度が非常に近く、初期状態の数が不足している場合にのみ実装可能である。 興味深いことに、最適検出プロトコルは、出力されたプローブ状態と保持されたアイドラーモードの間に共有される残差相関に依存する。

From the perspective of quantum information theory, the effect of Unruh radiation on a two-level accelerated detector can be modeled as a quantum channel. In this work, we employ the tools of channel-position finding to locate Unruh channels. The signal-idler and idler-free protocols are explored to determine the position of the target Unruh channel within a sequence of background channels. We derive the fidelity-based bounds for the ultimate error probability of each strategy and obtain the conditions where the signal-idler protocol is superior to the protocol involving idler-free states. It is found that the lower bound of the error probability for the signal-idler scheme exhibits clear advantages in all cases, while the idler-free scheme can only be implemented when the temperature of the two channels is very close and the number of initial states is insufficient. Interestingly, it is shown that the optimal detection protocol relies on the residual correlations shared between the emitted probe state and the retained idler modes.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# 拡張CNN-LSTMネットワークを用いた飛行軌道予測

Flight Trajectory Prediction Using an Enhanced CNN-LSTM Network ( http://arxiv.org/abs/2404.19218v1 )

ライセンス: Link先を確認
Qinzhi Hao, Jiali Zhang, Tengyu Jing, Wei Wang, (参考訳) 本稿では,戦闘機の高速飛行による飛行軌跡予測の低精度化,戦術的操作の多様性,近距離航空戦における状況変化の過渡性といった問題に着目し,戦闘機飛行軌跡予測手法としてのCNN-LSTMネットワークを提案する。 まず,CNNを用いた戦闘機の空間的特徴の抽出,ソーシャル・プール・モジュールを用いた複数の戦闘機の空間的特徴の集約,気道内の地理的情報と位置関係の収集,気道内における可変軌跡の特徴の捕捉,そしてLSTMの記憶特性を用いた時間的特徴の抽出,そして,その時間的特徴と空間的特徴の融合により,敵戦闘機の飛行軌跡の予測を行う。 大規模シミュレーション実験により,提案手法は従来のCNN-LSTM法と比較して軌道予測精度が向上し,ADEおよびFDE指標では32%,34%の改善が見られた。

Aiming at the problem of low accuracy of flight trajectory prediction caused by the high speed of fighters, the diversity of tactical maneuvers, and the transient nature of situational change in close range air combat, this paper proposes an enhanced CNN-LSTM network as a fighter flight trajectory prediction method. Firstly, we extract spatial features from fighter trajectory data using CNN, aggregate spatial features of multiple fighters using the social-pooling module to capture geographic information and positional relationships in the trajectories, and use the attention mechanism to capture mutated trajectory features in air combat; subsequently, we extract temporal features by using the memory nature of LSTM to capture long-term temporal dependence in the trajectories; and finally, we merge the temporal and spatial features to predict the flight trajectories of enemy fighters. Extensive simulation experiments verify that the proposed method improves the trajectory prediction accuracy compared to the original CNN-LSTM method, with the improvements of 32% and 34% in ADE and FDE indicators.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# クロネッカー生成物分解による行列値データの回帰

Regression for matrix-valued data via Kronecker products factorization ( http://arxiv.org/abs/2404.19220v1 )

ライセンス: Link先を確認
Yin-Jen Chen, Minh Tang, (参考訳) 行列-変数回帰問題 $Y_i = \sum_{k} \beta_{1k} X_i \beta_{2k}^{\top} + E_i$ for $i=1,2\dots,n$ in the high dimensional regime where the response $Y_i$ are matrices that dimensions $p_{1}\times p_{2}$ outgrow both the sample size $n$ and the dimensions $q_{1}\times q_{2}$ of the predictor variables $X_i$ i., $q_{1},q_{2} \ll n \ll p_{1},p_{2}$。 KRO-PRO-FAC と呼ばれるパラメータ $\{\beta_{1k}\} \subset \Re^{p_1 \times q_1}$ と $\{\beta_{2k}\} \subset \Re^{p_2 \times q_2}$ を推定するための推定アルゴリズムを提案する。 KRO-PRO-FACアルゴリズムは、$\{Y_i\}$のエントリ間の共分散を見積もる必要がないため、計算的に効率的である。 我々は、$E_i$の行または$E_i$の列が独立なガウス乱ベクトルであるような場合のスペクトルノルムにおいて、$\hat{\beta}_{1k} -\beta_{1k}$と$\hat{\beta}_{2k} - \beta_{2k}$の間の摂動境界を確立する。 シミュレーションおよび実データに関する数値的研究は,提案手法が既存の手法と比較して,推定誤差と予測精度の両方において競合的であることを示している。

We study the matrix-variate regression problem $Y_i = \sum_{k} \beta_{1k} X_i \beta_{2k}^{\top} + E_i$ for $i=1,2\dots,n$ in the high dimensional regime wherein the response $Y_i$ are matrices whose dimensions $p_{1}\times p_{2}$ outgrow both the sample size $n$ and the dimensions $q_{1}\times q_{2}$ of the predictor variables $X_i$ i.e., $q_{1},q_{2} \ll n \ll p_{1},p_{2}$. We propose an estimation algorithm, termed KRO-PRO-FAC, for estimating the parameters $\{\beta_{1k}\} \subset \Re^{p_1 \times q_1}$ and $\{\beta_{2k}\} \subset \Re^{p_2 \times q_2}$ that utilizes the Kronecker product factorization and rearrangement operations from Van Loan and Pitsianis (1993). The KRO-PRO-FAC algorithm is computationally efficient as it does not require estimating the covariance between the entries of the $\{Y_i\}$. We establish perturbation bounds between $\hat{\beta}_{1k} -\beta_{1k}$ and $\hat{\beta}_{2k} - \beta_{2k}$ in spectral norm for the setting where either the rows of $E_i$ or the columns of $E_i$ are independent sub-Gaussian random vectors. Numerical studies on simulated and real data indicate that our procedure is competitive, in terms of both estimation error and predictive accuracy, compared to other existing methods.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# Transcrib3D:大規模言語モデルによる表現解決の3次元参照

Transcrib3D: 3D Referring Expression Resolution through Large Language Models ( http://arxiv.org/abs/2404.19221v1 )

ライセンス: Link先を確認
Jiading Fang, Xiangshan Tan, Shengjie Lin, Igor Vasiljevic, Vitor Guizilini, Hongyuan Mei, Rares Ambrus, Gregory Shakhnarovich, Matthew R Walter, (参考訳) ロボットが人間と一緒に効果的に働くためには、その3D環境におけるオブジェクトへの自然言語参照を解釈できなければならない。 3D参照表現を理解することは難しい - シーンの3D構造を解析し、気晴らしや散らかしの存在下で自由形式の言語を正しく接地する能力を必要とする。 本稿では,大規模な言語モデル(LLM)の3次元検出手法と創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。 Transcrib3Dはテキストを統一媒体として使用しており、大量の注釈付き3Dデータを必要とするマルチモーダル入力を接続する共有表現を学習する必要性を助長することができる。 Transcrib3Dはその有効性の実証として、3D参照解像度ベンチマークにおける最先端の結果を達成する。 ゼロショット性能を改善し,エッジコンピュータやロボットに局所的な展開を容易にするため,小型モデルを訓練するファインチューニングのための自己補正を提案する。 提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。 プロジェクトのサイトはhttps://ripl.github.io/Transcrib3Dにある。

If robots are to work effectively alongside people, they must be able to interpret natural language references to objects in their 3D environment. Understanding 3D referring expressions is challenging -- it requires the ability to both parse the 3D structure of the scene and correctly ground free-form language in the presence of distraction and clutter. We introduce Transcrib3D, an approach that brings together 3D detection methods and the emergent reasoning capabilities of large language models (LLMs). Transcrib3D uses text as the unifying medium, which allows us to sidestep the need to learn shared representations connecting multi-modal inputs, which would require massive amounts of annotated 3D data. As a demonstration of its effectiveness, Transcrib3D achieves state-of-the-art results on 3D reference resolution benchmarks, with a great leap in performance from previous multi-modality baselines. To improve upon zero-shot performance and facilitate local deployment on edge computers and robots, we propose self-correction for fine-tuning that trains smaller models, resulting in performance close to that of large models. We show that our method enables a real robot to perform pick-and-place tasks given queries that contain challenging referring expressions. Project site is at https://ripl.github.io/Transcrib3D.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# ディープラーニングに基づくソフトウェアリファクタリングに関する調査

A Survey of Deep Learning Based Software Refactoring ( http://arxiv.org/abs/2404.19226v1 )

ライセンス: Link先を確認
Bridget Nyirongo, Yanjie Jiang, He Jiang, Hui Liu, (参考訳) リファクタリングは、ソフトウェアシステムの品質向上に使用されるソフトウェア工学における最も重要なアクティビティの1つです。 ディープラーニング技術の進歩により、研究者はソフトウェアリファクタリングにディープラーニング技術を適用しようとしている。 その結果、多くのディープラーニングベースのリファクタリングアプローチが提案されている。 しかし、このような作品に関する包括的なレビューや、ディープラーニングベースのリファクタリングのための分類の欠如がある。 そこで本論文では,ディープラーニングに基づくソフトウェアリファクタリングに関する調査を行う。 私たちは関連する作品を、彼らがカバーしている主要なタスクに応じて5つのカテゴリに分類します。 これらのカテゴリの中で、我々はさらに重要な側面(コードの臭いの種類、リファクタリングタイプ、トレーニング戦略、評価など)を提示し、ディープラーニングを通じてリファクタリングをサポートする技術の詳細について洞察する。 この分類は、リファクタリングプロセスにおけるディープラーニング技術の採用に不均衡があることを示唆している。 深層学習技術のほとんどは、それぞれ56.25\%と33.33\%の文献で見られるように、コードの臭いの検出とリファクタリングソリューションの推奨に使用されている。 対照的に、リファクタリングとリファクタリングのマイニングとして、エンドツーエンドのコード変換に向かっているのは6.25\%と4.17\%だけだった。 特に、リファクタリングの品質保証に関する文献表現はありませんでした。 また、ディープラーニング技術のほとんどは、メソッドレベルで発生したリファクタリングプロセスをサポートするために使われていますが、クラスや変数は最小限の注意を惹きつけています。 最後に,ディープラーニングによるリファクタリングの実施に伴う課題と限界について論じ,今後の研究の可能性を示唆する。

Refactoring is one of the most important activities in software engineering which is used to improve the quality of a software system. With the advancement of deep learning techniques, researchers are attempting to apply deep learning techniques to software refactoring. Consequently, dozens of deep learning-based refactoring approaches have been proposed. However, there is a lack of comprehensive reviews on such works as well as a taxonomy for deep learning-based refactoring. To this end, in this paper, we present a survey on deep learning-based software refactoring. We classify related works into five categories according to the major tasks they cover. Among these categories, we further present key aspects (i.e., code smell types, refactoring types, training strategies, and evaluation) to give insight into the details of the technologies that have supported refactoring through deep learning. The classification indicates that there is an imbalance in the adoption of deep learning techniques for the process of refactoring. Most of the deep learning techniques have been used for the detection of code smells and the recommendation of refactoring solutions as found in 56.25\% and 33.33\% of the literature respectively. In contrast, only 6.25\% and 4.17\% were towards the end-to-end code transformation as refactoring and the mining of refactorings, respectively. Notably, we found no literature representation for the quality assurance for refactoring. We also observe that most of the deep learning techniques have been used to support refactoring processes occurring at the method level whereas classes and variables attracted minimal attention. Finally, we discuss the challenges and limitations associated with the employment of deep learning-based refactorings and present some potential research opportunities for future work.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# Espresso: テキスト・画像モデルにおけるロバストな概念フィルタリング

Espresso: Robust Concept Filtering in Text-to-Image Models ( http://arxiv.org/abs/2404.19227v1 )

ライセンス: Link先を確認
Anudeep Das, Vasisht Duddu, Rui Zhang, N. Asokan, (参考訳) 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、与えられたテキスト・プロンプトに対して高忠実な画像を生成する。 それらはインターネットから取り除かれた大規模なデータセットでトレーニングされており、受け入れがたい概念(著作権侵害や安全でない)を含んでいる可能性がある。 トレーニングデータにおける受け入れ難い概念をフィルタリングした後のT2Iモデルのリトレーニングは非効率であり、実用性は低下する。 したがって、許容できない概念を排除し、許容可能な概念を有効に保存し、敵のプロンプトによる回避に対して堅牢な概念除去技術(CRT)が必要である。 以前のフィルタリングと微調整のCRTはいずれもこれらの要件を同時に満たしていない。 本稿では,Contrastive Language-Image Pre-Training (CLIP) に基づく最初のロバストな概念フィルタであるEspressoを紹介する。 これは、生成した画像の埋め込みを、ジョイントテキストイメージの埋め込み空間における受け入れがたい概念と許容できる概念を接続するベクトルに投影することで、受け入れがたい概念を識別する。 これにより、許容される概念の方向において、このベクトルに沿ってのみノイズを追加する敵を制限することによって、堅牢性を保証する。 さらに微調整されたエスプレッソは、許容可能な概念と許容できない概念の埋め込みを分離すると同時に、イメージ埋め込みとのペアリングを保ち、有効性と有用性の両方を保証する。 Espressoを11種類の概念で評価し,有効性(許容できない概念に対するCLIPの精度〜5%),実用性(許容可能な概念に対するCLIPの正常化スコア~93%),堅牢性(許容できない概念に対する敵対的プロンプトに対するCLIPの精度〜4%)を示す。 最後に,Espressoの対向的プロンプトに対するロバスト性に関する理論的境界,および経験的解析について述べる。

Diffusion-based text-to-image (T2I) models generate high-fidelity images for given textual prompts. They are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright infringing or unsafe). Retraining T2I models after filtering out unacceptable concepts in the training data is inefficient and degrades utility. Hence, there is a need for concept removal techniques (CRTs) which are effective in removing unacceptable concepts, utility-preserving on acceptable concepts, and robust against evasion with adversarial prompts. None of the prior filtering and fine-tuning CRTs satisfy all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). It identifies unacceptable concepts by projecting the generated image's embedding onto the vector connecting unacceptable and acceptable concepts in the joint text-image embedding space. This ensures robustness by restricting the adversary to adding noise only along this vector, in the direction of the acceptable concept. Further fine-tuning Espresso to separate embeddings of acceptable and unacceptable concepts, while preserving their pairing with image embeddings, ensures both effectiveness and utility. We evaluate Espresso on eleven concepts to show that it is effective (~5% CLIP accuracy on unacceptable concepts), utility-preserving (~93% normalized CLIP score on acceptable concepts), and robust (~4% CLIP accuracy on adversarial prompts for unacceptable concepts). Finally, we present theoretical bounds for the certified robustness of Espresso against adversarial prompts, and an empirical analysis.
翻訳日:2024-05-01 15:43:32 公開日:2024-04-30
# ポイントワイド相互情報によるマルチモーダルコントラスト学習の理解

Understanding Multimodal Contrastive Learning Through Pointwise Mutual Information ( http://arxiv.org/abs/2404.19228v1 )

ライセンス: Link先を確認
Toshimitsu Uesaka, Taiji Suzuki, Yuhta Takida, Chieh-Hsin Lai, Naoki Murata, Yuki Mitsufuji, (参考訳) マルチモーダル表現学習は、テキスト、ビジョン、オーディオなどの様々なモダリティを統合することが、現実世界のアプリケーションにとって重要である。 CLIPで提案される対称InfoNCE損失は、マルチモーダル表現学習における鍵となる概念である。 本研究では,ポイントワイドな相互情報のレンズを通して対称なInfoNCE損失を理論的に理解し,事前学習において最適な類似性を実現するエンコーダが,軽度な仮定の下での下流分類タスクに優れた表現を提供することを示す。 また,理論的な結果に基づいて,非線形カーネルを用いたマルチモーダルコントラスト学習のための新しい類似度指標を提案する。 提案手法の有効性を検証するため,概念キャプションデータセット上でのマルチモーダル表現モデルの事前学習と,共通ベンチマークデータセットにおけるゼロショット分類と線形分類の評価を行った。

Multimodal representation learning to integrate different modalities, such as text, vision, and audio is important for real-world applications. The symmetric InfoNCE loss proposed in CLIP is a key concept in multimodal representation learning. In this work, we provide a theoretical understanding of the symmetric InfoNCE loss through the lens of the pointwise mutual information and show that encoders that achieve the optimal similarity in the pretraining provide a good representation for downstream classification tasks under mild assumptions. Based on our theoretical results, we also propose a new similarity metric for multimodal contrastive learning by utilizing a nonlinear kernel to enrich the capability. To verify the effectiveness of the proposed method, we demonstrate pretraining of multimodal representation models on the Conceptual Caption datasets and evaluate zero-shot classification and linear classification on common benchmark datasets.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# Deep Lead Optimization: 構造修正のための生成AIを活用する

Deep Lead Optimization: Leveraging Generative AI for Structural Modification ( http://arxiv.org/abs/2404.19230v1 )

ライセンス: Link先を確認
Odin Zhang, Haitao Lin, Hui Zhang, Huifeng Zhao, Yufei Huang, Yuansheng Huang, Dejun Jiang, Chang-yu Hsieh, Peichen Pan, Tingjun Hou, (参考訳) 深層学習に基づく分子生成を用いて薬物候補の発見を加速するというアイデアは、非常に注目され、分子生成と呼ばれる自動薬物設計のための多くの深層生成モデルが開発されている。 一般に分子生成は、ゼロから新しい分子構造を生成するde novo設計と、既存の分子を薬物候補に精製するリード最適化の2つの主要な戦略を含んでいる。 中でもリード最適化は、現実世界のドラッグデザインにおいて重要な役割を担っている。 例えば、薬とは化学的に異なるが、元の薬よりも効果的であるメバッター薬の開発を可能にする。 また、フラグメントベースのドラッグデザインを容易にし、仮想スクリーンの小さなリガンドを低親和性でファーストインクラスの薬に変えることができる。 その重要性にもかかわらず、複雑な生物学的および化学的知識に依存しているため、自動鉛最適化はよく確立されたデ・ノボ生成モデルと比較すると未解明のままである。 このギャップを埋めるために、従来の計算手法を体系的に検討し、これらの戦略を入力と出力を定義した4つの主要なサブタスクにまとめる。 このレビューでは、基本的な概念、目標、従来のCADD技術、最近のAIDDの進歩について論じる。 さらに,制約付き部分グラフ生成に基づく統一的な視点を導入し,デノボ設計とリード最適化の方法論を調和させる。 このレンズを通して、de novo設計は、ハード・トゥ・シンセサイズド分子の生成という課題に対処するために、鉛最適化からの戦略を取り入れることができる。

The idea of using deep-learning-based molecular generation to accelerate discovery of drug candidates has attracted extraordinary attention, and many deep generative models have been developed for automated drug design, termed molecular generation. In general, molecular generation encompasses two main strategies: de novo design, which generates novel molecular structures from scratch, and lead optimization, which refines existing molecules into drug candidates. Among them, lead optimization plays an important role in real-world drug design. For example, it can enable the development of me-better drugs that are chemically distinct yet more effective than the original drugs. It can also facilitate fragment-based drug design, transforming virtual-screened small ligands with low affinity into first-in-class medicines. Despite its importance, automated lead optimization remains underexplored compared to the well-established de novo generative models, due to its reliance on complex biological and chemical knowledge. To bridge this gap, we conduct a systematic review of traditional computational methods for lead optimization, organizing these strategies into four principal sub-tasks with defined inputs and outputs. This review delves into the basic concepts, goals, conventional CADD techniques, and recent advancements in AIDD. Additionally, we introduce a unified perspective based on constrained subgraph generation to harmonize the methodologies of de novo design and lead optimization. Through this lens, de novo design can incorporate strategies from lead optimization to address the challenge of generating hard-to-synthesize molecules; inversely, lead optimization can benefit from the innovations in de novo design by approaching it as a task of generating molecules conditioned on certain substructures.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# GRAMMAR:ドメイン特化検索拡張言語モデルの基礎的およびモジュール的評価

GRAMMAR: Grounded and Modular Evaluation of Domain-Specific Retrieval-Augmented Language Models ( http://arxiv.org/abs/2404.19232v1 )

ライセンス: Link先を確認
Xinzhe Li, Ming Liu, Shang Gao, (参考訳) Retrieval-augmented Generation (RAG) システムは、ドメイン固有の知識ベースを問うために、様々な産業で活発に研究され、展開されている。 しかし、これらのシステムを評価することは、ドメイン固有のクエリの不足とそれに対応する基礎的な真実、そして障害の原因を診断するための体系的なアプローチの欠如など、ユニークな課題を示す。 これらの課題に対処するために、GRAMMAR(GRounded and Modular Methodology for Assessment of RAG)という2つの要素からなる評価フレームワークを導入する。 1)リレーショナルデータベースとLLMを活用して,スケーラブルな問合せ対を効率的に生成するデータ生成プロセス。 この方法では、言語的バリエーションからクエリロジックを分離し、デバッグ機能を増強する。 2)知識ギャップと堅牢性を区別し,欠陥モジュールの識別を可能にする評価フレームワーク。 我々の経験的結果は、モデル脆弱性を正確に識別するために、現在の基準フリー評価手法の限界とGRAMMARの信頼性を裏付けるものである。

Retrieval-augmented Generation (RAG) systems have been actively studied and deployed across various industries to query on domain-specific knowledge base. However, evaluating these systems presents unique challenges due to the scarcity of domain-specific queries and corresponding ground truths, as well as a lack of systematic approaches to diagnosing the cause of failure cases -- whether they stem from knowledge deficits or issues related to system robustness. To address these challenges, we introduce GRAMMAR (GRounded And Modular Methodology for Assessment of RAG), an evaluation framework comprising two key elements: 1) a data generation process that leverages relational databases and LLMs to efficiently produce scalable query-answer pairs. This method facilitates the separation of query logic from linguistic variations for enhanced debugging capabilities; and 2) an evaluation framework that differentiates knowledge gaps from robustness and enables the identification of defective modules. Our empirical results underscore the limitations of current reference-free evaluation approaches and the reliability of GRAMMAR to accurately identify model vulnerabilities.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# 大規模言語モデルを用いた知識グラフに対するマルチホップ質問応答

Multi-hop Question Answering over Knowledge Graphs using Large Language Models ( http://arxiv.org/abs/2404.19234v1 )

ライセンス: Link先を確認
Abir Chakraborty, (参考訳) 知識グラフ(KG)は、大きな知識ベース(KB)を表す特定の構造を持つ大きなデータセットである。 自然言語クエリは、特定のノードから始まるKBエンターテイメントから情報を抽出し、対応するKGの複数のエッジを推論して、正しい応答ノードのセットに到達する。 KGにおける従来の質問応答のアプローチは、ベースとなっている。 (a)意味解析(SP) 論理形式(例えば、S-expression、SPARQLクエリなど)をノードとエッジの埋め込みを使って生成し、これらの表現を推論したり、言語モデルをチューニングして最終回答を直接生成したり、あるいは (b)エンティティと関係を逐次抽出する情報検索方式 本研究では,複数のホップを含むKG上の疑問に答える(LLM)能力を評価する。 我々は、KGのサイズや性質によって、各LLMが固定されたコンテキストウィンドウを持つため、関連する情報をLLMに抽出し、供給するために異なるアプローチが必要であることを示す。 提案手法は6つのKGに対して,実例固有のサブグラフを使用・使用せずに評価し,IR法とSP法の両方がLLMで適用可能であることを示し,非常に競争力のある性能を示す。

Knowledge graphs (KGs) are large datasets with specific structures representing large knowledge bases (KB) where each node represents a key entity and relations amongst them are typed edges. Natural language queries formed to extract information from a KB entail starting from specific nodes and reasoning over multiple edges of the corresponding KG to arrive at the correct set of answer nodes. Traditional approaches of question answering on KG are based on (a) semantic parsing (SP), where a logical form (e.g., S-expression, SPARQL query, etc.) is generated using node and edge embeddings and then reasoning over these representations or tuning language models to generate the final answer directly, or (b) information-retrieval based that works by extracting entities and relations sequentially. In this work, we evaluate the capability of (LLMs) to answer questions over KG that involve multiple hops. We show that depending upon the size and nature of the KG we need different approaches to extract and feed the relevant information to an LLM since every LLM comes with a fixed context window. We evaluate our approach on six KGs with and without the availability of example-specific sub-graphs and show that both the IR and SP-based methods can be adopted by LLMs resulting in an extremely competitive performance.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# 大規模MIMOシステムにおけるパイロット汚染 : 課題と今後の展望

Pilot Contamination in Massive MIMO Systems: Challenges and Future Prospects ( http://arxiv.org/abs/2404.19238v1 )

ライセンス: Link先を確認
Muhammad Kamran Saeed, Ashfaq Khokhar, Shakil Ahmed, (参考訳) 大規模多重入力多重出力(M-MIMO)技術は第5世代(5G)および通信システムを超えて重要な役割を担い、スペクトル効率(SE)の向上からエネルギー効率の向上、信頼性の向上まで幅広い利益をもたらす。 しかし、これらの利点は基地局(BS)における正確なチャネル状態情報(CSI)の可用性に依存している。 正確なCSIを確保することは、コヒーレンス間隔の制約されたサイズとパイロットシーケンスの長さの制限のために困難である。 そのため、隣接する細胞におけるパイロット配列の再利用はパイロット汚染を引き起こし、SEの増強を阻害する。 本稿では,パイロットの汚染軽減とチャネル推定の改善に関する最近の研究課題を,パイロットの割り当て方式,信号処理手法,チャネル推定手法の3つの分野に分類して検討する。 各カテゴリにおいて、有能なパイロット緩和/割り当て技術を分析し比較する。 最後に,今後の研究の方向性について考察する。

Massive multiple input multiple output (M-MIMO) technology plays a pivotal role in fifth-generation (5G) and beyond communication systems, offering a wide range of benefits, from increased spectral efficiency (SE) to enhanced energy efficiency and higher reliability. However, these advantages are contingent upon precise channel state information (CSI) availability at the base station (BS). Ensuring precise CSI is challenging due to the constrained size of the coherence interval and the resulting limitations on pilot sequence length. Therefore, reusing pilot sequences in adjacent cells introduces pilot contamination, hindering SE enhancement. This paper reviews recent advancements and addresses research challenges in mitigating pilot contamination and improving channel estimation, categorizing the existing research into three broader categories: pilot assignment schemes, advanced signal processing methods, and advanced channel estimation techniques. Salient representative pilot mitigation/assignment techniques are analyzed and compared in each category. Lastly, possible future research directions are discussed.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# パラメータに基づく深さ依存歪みモデルの最小セットとステレオビジョンシステムに対する校正法

A Minimal Set of Parameters Based Depth-Dependent Distortion Model and Its Calibration Method for Stereo Vision Systems ( http://arxiv.org/abs/2404.19242v1 )

ライセンス: Link先を確認
Xin Ma, Puchen Zhu, Xiao Li, Xiaoyin Zheng, Jianshu Zhou, Xuchen Wang, Kwok Wai Samuel Au, (参考訳) 奥行き位置は、特に近距離撮影においてレンズの歪みに大きく影響し、既存の立体視システムの測定精度を制限している。 さらに,従来の深度依存歪みモデルとそのキャリブレーション法は複雑である。 本研究では,立体視システムの精度を向上し,キャリブレーションプロセスの簡素化を図るため,レンズの半径歪みと収差歪みを考慮した最小限のパラメータベース深度依存歪みモデル(MDM)を提案する。 さらに, 平面図形を用いた立体視システムのMDMの簡易かつ柔軟なキャリブレーション手法を提案し, カメラが平面図形を異なる方向で観察する必要がある。 提案手法は、レンズが平面パターンに垂直でなければならない奥行き依存歪みモデルに対する古典的キャリブレーション法と比較して、使いやすく柔軟である。 MDMとキャリブレーション法を実験的に検証した結果、従来のLiの歪みモデルやブラウンの歪みモデルと比較して、MDMはキャリブレーション精度を56.55%、74.15%改善した。 さらに,3次元再構成におけるMDMの深度情報を反復的に推定する反復的再構成手法を提案する。 その結果, 繰り返し再建法の精度は, 非整合再建法と比較して9.08%向上した。

Depth position highly affects lens distortion, especially in close-range photography, which limits the measurement accuracy of existing stereo vision systems. Moreover, traditional depth-dependent distortion models and their calibration methods have remained complicated. In this work, we propose a minimal set of parameters based depth-dependent distortion model (MDM), which considers the radial and decentering distortions of the lens to improve the accuracy of stereo vision systems and simplify their calibration process. In addition, we present an easy and flexible calibration method for the MDM of stereo vision systems with a commonly used planar pattern, which requires cameras to observe the planar pattern in different orientations. The proposed technique is easy to use and flexible compared with classical calibration techniques for depth-dependent distortion models in which the lens must be perpendicular to the planar pattern. The experimental validation of the MDM and its calibration method showed that the MDM improved the calibration accuracy by 56.55% and 74.15% compared with the Li's distortion model and traditional Brown's distortion model. Besides, an iteration-based reconstruction method is proposed to iteratively estimate the depth information in the MDM during three-dimensional reconstruction. The results showed that the accuracy of the iteration-based reconstruction method was improved by 9.08% compared with that of the non-iteration reconstruction method.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# ジェネレーティブAIの研究における責任ある利用のための大学枠組み

A University Framework for the Responsible use of Generative AI in Research ( http://arxiv.org/abs/2404.19244v1 )

ライセンス: Link先を確認
Shannon Smith, Melissa Tate, Keri Freeman, Anne Walsh, Brian Ballsun-Stanton, Mark Hooper, Murray Lane, (参考訳) ジェネレーティブ人工知能(Generative Artificial Intelligence、ジェネレーティブAI)は、研究の完全性のための機会とリスクを兼ね備えている。 大学は、生成AIを責任を持って使用し、急激な変化の対象となる複雑な規制環境をナビゲートするために、研究者を指導しなければならない。 オーストラリア大学2校の経験を生かして,創生AIの責任ある活用を促進するための枠組みを提案する。 多様な規制環境を原則に基づくポジションステートメントに転換するためのガイダンスを提供する。 さらに、ポジションステートメントが、トレーニング、コミュニケーション、インフラ、プロセス変更におけるイニシアチブの基盤となる方法を説明します。 学部生に対するAIの学術的完全性への影響に関する文献が増えているが、研究の完全性に対する生成的AIの影響や、これらの課題に対処する上での機関の役割には、比較的注意が向けられていない。 本稿は,研究機関がこの分野で活動する上での緊急性を強調し,それを実現するための実践的かつ適応的な枠組みを提案する。

Generative Artificial Intelligence (generative AI) poses both opportunities and risks for the integrity of research. Universities must guide researchers in using generative AI responsibly, and in navigating a complex regulatory landscape subject to rapid change. By drawing on the experiences of two Australian universities, we propose a framework to help institutions promote and facilitate the responsible use of generative AI. We provide guidance to help distil the diverse regulatory environment into a principles-based position statement. Further, we explain how a position statement can then serve as a foundation for initiatives in training, communications, infrastructure, and process change. Despite the growing body of literature about AI's impact on academic integrity for undergraduate students, there has been comparatively little attention on the impacts of generative AI for research integrity, and the vital role of institutions in helping to address those challenges. This paper underscores the urgency for research institutions to take action in this area and suggests a practical and adaptable framework for so doing.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# HydraLoRA: 効率的なファインチューニングのための非対称LoRAアーキテクチャ

HydraLoRA: An Asymmetric LoRA Architecture for Efficient Fine-Tuning ( http://arxiv.org/abs/2404.19245v1 )

ライセンス: Link先を確認
Chunlin Tian, Zhan Shi, Zhijiang Guo, Li Li, Chengzhong Xu, (参考訳) 大規模言語モデル(LLM)を細調整によって新しいタスクに適応させることは、LoRAのようなパラメータ効率の良い細調整(PEFT)技術を導入することによって、より効率的になりました。 しかし、これらの手法は、特に複雑なデータセットを含むシナリオにおいて、完全な微調整に比べて性能が劣ることが多い。 この問題は複雑なドメインでさらに顕著になり、より優れたパフォーマンスを実現するためのPEFTアプローチの改善の必要性を強調している。 一連の実験を通じて、私たちはLoRAのトレーニングとパラメータ非効率性に光を当てる2つの重要な洞察を発見しました。 これらの知見に基づいて、ドメインの専門知識を必要としない非対称構造を持つLoRAフレームワークであるHydraLoRAを開発した。 実験の結果,HydraLoRAは他のPEFTアプローチよりも優れていることがわかった。 https://github.com/Clin0212/HydraLoRA}{Code}

Adapting Large Language Models (LLMs) to new tasks through fine-tuning has been made more efficient by the introduction of Parameter-Efficient Fine-Tuning (PEFT) techniques, such as LoRA. However, these methods often underperform compared to full fine-tuning, particularly in scenarios involving complex datasets. This issue becomes even more pronounced in complex domains, highlighting the need for improved PEFT approaches that can achieve better performance. Through a series of experiments, we have uncovered two critical insights that shed light on the training and parameter inefficiency of LoRA. Building on these insights, we have developed HydraLoRA, a LoRA framework with an asymmetric structure that eliminates the need for domain expertise. Our experiments demonstrate that HydraLoRA outperforms other PEFT approaches, even those that rely on domain knowledge during the training and inference phases. \href{https://github.com/Clin0212/HydraLoRA}{Code}.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# FPGAにおけるロジスティックマップ擬似乱数生成

Logistic Map Pseudo Random Number Generator in FPGA ( http://arxiv.org/abs/2404.19246v1 )

ライセンス: Link先を確認
Mateo Jalen Andrew Calderon, Lee Jun Lei Lucas, Syarifuddin Azhar Bin Rosli, Stephanie See Hui Ying, Jarell Lim En Yu, Maoyang Xiang, T. Hui Teo, (参考訳) 本研究は,FPGA上のVerilog HDLで実装されたロジスティックマップを用いた擬似ランダム数生成器(PRNG)を開発し,その出力を中央極限定理(CLT)関数で処理し,ガウス分布を実現する。 このシステムは、クロックジェネレータ、UARTインターフェース、XADC、および7セグメントディスプレイドライバを含む、リアルタイムのインタラクションと視覚化のための追加のFPGAモジュールを統合する。 これらのコンポーネントは、FPGA上のPRNG値の直接表示と、ヒストグラム解析のためにラップトップへのデータの送信を促進し、出力のガウス的性質を検証する。 このアプローチは、デジタルハードウェアにおいてガウス分布の擬似ランダム数を生成するためのカオスシステムの実用的応用を示し、PRNG設計におけるロジスティックマップの可能性を強調した。

This project develops a pseudo-random number generator (PRNG) using the logistic map, implemented in Verilog HDL on an FPGA and processes its output through a Central Limit Theorem (CLT) function to achieve a Gaussian distribution. The system integrates additional FPGA modules for real-time interaction and visualisation, including a clock generator, UART interface, XADC, and a 7-segment display driver. These components facilitate the direct display of PRNG values on the FPGA and the transmission of data to a laptop for histogram analysis, verifying the Gaussian nature of the output. This approach demonstrates the practical application of chaotic systems for generating Gaussian-distributed pseudo-random numbers in digital hardware, highlighting the logistic map's potential in PRNG design.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# LSTMモジュールとKL分散によるAutoEncoderの改良

Improved AutoEncoder with LSTM module and KL divergence ( http://arxiv.org/abs/2404.19247v1 )

ライセンス: Link先を確認
Wei Huang, Bingyang Zhang, Kaituo Zhang, Hua Gao, Rongchun Wan, (参考訳) 異常検出のタスクは、データセット内の正常データから異常データを分離することである。 深部畳み込みオートエンコーダ(CAE)ネットワークや深部支持ベクトルデータ記述(SVDD)モデルなどのモデルが広く採用され,異常検出に成功している。 しかし、異常データに対するCAEネットワークの過度な再構成能力は、異常データを検出する際に、容易に偽陰性率を高めることができる。 一方,深部SVDDモデルでは特徴崩壊の欠点があり,異常検出精度が低下する。 本稿では,LSTMモジュールとKullback-Leibler divergence(IAE-LSTM-KL)モデルを用いた改良オートエンコーダを提案する。 エンコーダの後にLSTMネットワークが追加され、通常のデータの特徴表現を記憶する。 一方, SVDDモジュールへの入力をKL分散によりペナル化することにより, 特徴崩壊現象を緩和することができる。 IAE-LSTM-KLモデルの有効性は、合成データセットと実世界のデータセットの両方で実験によって検証される。 実験の結果,IAE-LSTM-KLモデルでは異常検出精度が高いことがわかった。 さらに、IAE-LSTM-KLモデルにより、データセットの汚染された外れ値に対する堅牢性が向上することが判明した。

The task of anomaly detection is to separate anomalous data from normal data in the dataset. Models such as deep convolutional autoencoder (CAE) network and deep supporting vector data description (SVDD) model have been universally employed and have demonstrated significant success in detecting anomalies. However, the over-reconstruction ability of CAE network for anomalous data can easily lead to high false negative rate in detecting anomalous data. On the other hand, the deep SVDD model has the drawback of feature collapse, which leads to a decrease of detection accuracy for anomalies. To address these problems, we propose the Improved AutoEncoder with LSTM module and Kullback-Leibler divergence (IAE-LSTM-KL) model in this paper. An LSTM network is added after the encoder to memorize feature representations of normal data. In the meanwhile, the phenomenon of feature collapse can also be mitigated by penalizing the featured input to SVDD module via KL divergence. The efficacy of the IAE-LSTM-KL model is validated through experiments on both synthetic and real-world datasets. Experimental results show that IAE-LSTM-KL model yields higher detection accuracy for anomalies. In addition, it is also found that the IAE-LSTM-KL model demonstrates enhanced robustness to contaminated outliers in the dataset.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# 量子化学習のための遷移速度スケジューリング

Transition Rate Scheduling for Quantization-Aware Training ( http://arxiv.org/abs/2404.19248v1 )

ライセンス: Link先を確認
Junghyup lee, Dohyung Kim, Jeimin Jeon, Bumsub Ham, (参考訳) 量子化対応トレーニング(QAT)は、ウェイト/アクティベーションのビット精度を低下させるために、トレーニング中の量子化プロセスをシミュレートする。 量子化重みを間接的に学習し、勾配に基づくオプティマイザを用いて、潜時重み、すなわち完全精度の入力を量子化器に更新する。 ユーザ定義学習率(LR)とこれらのオプティマイザを結合することはQATに準最適であると主張する。 量子化重みが量子化器の離散レベルを通過するのは、対応する潜在重みが遷移点を通過するときのみであり、そこでは量子化器が離散状態を変化させる。 このことは、量子化重量の変化が、潜在重量のLRとそれらの分布の両方に影響されていることを示唆している。 したがって、LRを手動でスケジューリングすることで、量子化重量の変化の度合いを制御することは困難である。 我々は、QATにおけるパラメータの変化の度合いが、離散レベルを通過する量子化重みの数に関係していると推測する。 これに基づいて、量子化重みの遷移数を明示的に制御する遷移率(TR)スケジューリング手法を導入する。 遅延重みのLRをスケジューリングする代わりに、量子化重みのターゲットTRをスケジュールし、新しい遷移適応LR(TALR)で潜在重みの更新を行い、QAT中の量子化重みの変化の度合いを考慮できる。 実験により, 標準ベンチマークにおける提案手法の有効性が示された。

Quantization-aware training (QAT) simulates a quantization process during training to lower bit-precision of weights/activations. It learns quantized weights indirectly by updating latent weights, i.e., full-precision inputs to a quantizer, using gradient-based optimizers. We claim that coupling a user-defined learning rate (LR) with these optimizers is sub-optimal for QAT. Quantized weights transit discrete levels of a quantizer, only if corresponding latent weights pass transition points, where the quantizer changes discrete states. This suggests that the changes of quantized weights are affected by both the LR for latent weights and their distributions. It is thus difficult to control the degree of changes for quantized weights by scheduling the LR manually. We conjecture that the degree of parameter changes in QAT is related to the number of quantized weights transiting discrete levels. Based on this, we introduce a transition rate (TR) scheduling technique that controls the number of transitions of quantized weights explicitly. Instead of scheduling a LR for latent weights, we schedule a target TR of quantized weights, and update the latent weights with a novel transition-adaptive LR (TALR), enabling considering the degree of changes for the quantized weights during QAT. Experimental results demonstrate the effectiveness of our approach on standard benchmarks.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# バイアス・コントラスト・ペアにおけるクラス識別コモン属性の探索による内在的特徴のデバイアス化

Enhancing Intrinsic Features for Debiasing via Investigating Class-Discerning Common Attributes in Bias-Contrastive Pair ( http://arxiv.org/abs/2404.19250v1 )

ライセンス: Link先を確認
Jeonghoon Park, Chaeyeon Chung, Juyoung Lee, Jaegul Choo, (参考訳) 画像分類タスクでは、ディープニューラルネットワークは、データセットバイアスが存在する場合、ターゲットクラスと突発的に相関するバイアス特性にしばしば依存し、バイアス属性のないデータに適用した場合、性能が低下する。 Debiasingのタスクは、バイアス属性ではなく、本質的にターゲットクラスを定義する固有の属性を学ぶために、分類器を強制することを目的としている。 近年のアプローチでは、バイアス特性のないデータサンプルの学習(すなわちバイアス強調サンプル)をバイアス特性を持つサンプル(すなわちバイアス整合サンプル)と比較して強調する傾向にあるが、本質的な特徴の学習に焦点をあてるモデルを直接指導するには至っていない。 この制限に対処するため,本研究では,本質的な特徴の領域を示す明示的な空間的ガイダンスをモデルに提供する手法を提案する。 まず, バイアス整合型 (BA) サンプルとバイアス整合型 (BC) サンプル (バイアス整合型 (BC) ペア) のクラス識別共通特徴について検討した。 次に, BA試料の内在的特徴をBC試料と比較した場合, 予測にはあまり役に立たなかった。 バイアス情報を使わずにバイアス競合対を構築するために,バイアスモデルを用いたBAサンプルとBCサンプルを区別するバイアス負スコアを導入する。 実験により, 種々のバイアス重大度を有する合成および実世界のデータセットに対して, 最先端の性能を達成できることが実証された。

In the image classification task, deep neural networks frequently rely on bias attributes that are spuriously correlated with a target class in the presence of dataset bias, resulting in degraded performance when applied to data without bias attributes. The task of debiasing aims to compel classifiers to learn intrinsic attributes that inherently define a target class rather than focusing on bias attributes. While recent approaches mainly focus on emphasizing the learning of data samples without bias attributes (i.e., bias-conflicting samples) compared to samples with bias attributes (i.e., bias-aligned samples), they fall short of directly guiding models where to focus for learning intrinsic features. To address this limitation, this paper proposes a method that provides the model with explicit spatial guidance that indicates the region of intrinsic features. We first identify the intrinsic features by investigating the class-discerning common features between a bias-aligned (BA) sample and a bias-conflicting (BC) sample (i.e., bias-contrastive pair). Next, we enhance the intrinsic features in the BA sample that are relatively under-exploited for prediction compared to the BC sample. To construct the bias-contrastive pair without using bias information, we introduce a bias-negative score that distinguishes BC samples from BA samples employing a biased model. The experiments demonstrate that our method achieves state-of-the-art performance on synthetic and real-world datasets with various levels of bias severity.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# 強結合非マルコフ雑音の存在下での量子制御

Quantum control in the presence of strongly coupled non-Markovian noise ( http://arxiv.org/abs/2404.19251v1 )

ライセンス: Link先を確認
Arinta Auza, Akram Youssry, Gerardo Paz-Silva, Alberto Peruzzo, (参考訳) 相関する非マルコフ雑音下での量子系の制御、特に強い結合では、量子技術の発展に大きな課題が生じる。 伝統的な量子制御戦略は、正確なモデルに大きく依存しており、しばしばこれらの条件下で失敗する。 ここでは、機械学習構造と物理に基づく要素を統合するデータ駆動型グレーボックスモデルを用いて、この問題に対処する。 単一量子制御を実演し、普遍ゲートセットとランダムゲートセットを実装し、未知の非マルコフ非ガウス雑音下で高い忠実性を達成し、従来の手法より著しく優れていることを示す。 この手法は、ノイズの種類や結合の強さに関わらず、すべての開有限次元量子系に適用可能である。

Controlling quantum systems under correlated non-Markovian noise, particularly when strongly coupled, poses significant challenges in the development of quantum technologies. Traditional quantum control strategies, heavily reliant on precise models, often fail under these conditions. Here, we address the problem by utilizing a data-driven graybox model, which integrates machine learning structures with physics-based elements. We demonstrate single-qubit control, implementing a universal gate set as well as a random gate set, achieving high fidelity under unknown, strongly-coupled non-Markovian non-Gaussian noise, significantly outperforming traditional methods. Our method is applicable to all open finite-dimensional quantum systems, regardless of the type of noise or the strength of the coupling.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# ベトナムのソーシャルメディアテキストにおけるヘイトスピーチ検出のためのターゲットによる憎悪の発散

Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts ( http://arxiv.org/abs/2404.19252v1 )

ライセンス: Link先を確認
Cuong Nhat Vo, Khanh Bao Huynh, Son T. Luu, Trong-Hop Do, (参考訳) ソーシャルネットワークの成長は、有害なコンテンツを急速に拡散させる。 ヘイトスピーチ検出は、有害なコメントの数を減らすためのタスクである。 ユーザのヘイトスピーチの多様性から,ヘイトスピーチの検出以外にヘイトスピーチを解釈する必要がある。 そこで本稿では,ソーシャルメディアからのオンラインストリーミングテキストからヘイトスピーチをターゲットとするシステムを構築する手法を提案する。 まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。 データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。 データセットには5つのターゲットがあり、それぞれのターゲットは厳格なガイドラインを持つ人間が手動で対応するレベルにラベル付けされる。 データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。 そこで我々は,Bi-GRU-LSTM-CNNと事前学習言語モデルを組み合わせて,BERTologyのテキスト表現のパワーを活用することで,このタスクのベースラインを構築する。 最後に,ソーシャルメディア上でのヘイトフルかつ不快なコンテンツ防止に有効なオンラインストリーミングシステムに,ターゲットヘイトスピーチ検出のためのベースラインモデルを統合する手法を提案する。

The growth of social networks makes toxic content spread rapidly. Hate speech detection is a task to help decrease the number of harmful comments. With the diversity in the hate speech created by users, it is necessary to interpret the hate speech besides detecting it. Hence, we propose a methodology to construct a system for targeted hate speech detection from online streaming texts from social media. We first introduce the ViTHSD - a targeted hate speech detection dataset for Vietnamese Social Media Texts. The dataset contains 10K comments, each comment is labeled to specific targets with three levels: clean, offensive, and hate. There are 5 targets in the dataset, and each target is labeled with the corresponding level manually by humans with strict annotation guidelines. The inter-annotator agreement obtained from the dataset is 0.45 by Cohen's Kappa index, which is indicated as a moderate level. Then, we construct a baseline for this task by combining the Bi-GRU-LSTM-CNN with the pre-trained language model to leverage the power of text representation of BERTology. Finally, we suggest a methodology to integrate the baseline model for targeted hate speech detection into the online streaming system for practical application in preventing hateful and offensive content on social media.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# 非言語表現による機能状態のコミュニケーション学習による人間-ロボット協調の促進

Learning to Communicate Functional States with Nonverbal Expressions for Improved Human-Robot Collaboration ( http://arxiv.org/abs/2404.19253v1 )

ライセンス: Link先を確認
Liam Roy, Dana Kulic, Elizabeth Croft, (参考訳) 協調ロボットは、スムーズな対話を可能にするために、内部状態を人間に効果的に伝える必要がある。 非言語コミュニケーションは、人間とロボットの相互作用の間、情報を伝達するために広く利用されているが、そのような方法は誤解され、通信エラーにつながる可能性がある。 本研究では,非言語的聴覚表現の音響パラメータ値(ピッチ曲げ,1分当たりのビート,ループ当たりのビート)を調整し,機能的ロボット状態を伝達する。 雑音の多い人間のフィードバックに基づく強化学習(RL)アルゴリズムを提案する。 提案手法は,24名を対象にしたユーザスタディにより評価した。 結果は以下のとおりである。 提案手法は,ロボットの状態を正確に識別する能力を向上させるため,適切な音響パラメータ値の学習を可能にする。 2. 従来のユーザデータから得られるアルゴリズムの初期化は,学習プロセスの大幅な高速化に有効である。 3)アルゴリズムの初期化に用いる手法は,各ロボット状態に対して,参加者が類似音に収束するか否かに強く影響する。 4. ピッチ屈曲の変調は音とロボット状態のユーザ関係に最も大きな影響を及ぼす。

Collaborative robots must effectively communicate their internal state to humans to enable a smooth interaction. Nonverbal communication is widely used to communicate information during human-robot interaction, however, such methods may also be misunderstood, leading to communication errors. In this work, we explore modulating the acoustic parameter values (pitch bend, beats per minute, beats per loop) of nonverbal auditory expressions to convey functional robot states (accomplished, progressing, stuck). We propose a reinforcement learning (RL) algorithm based on noisy human feedback to produce accurately interpreted nonverbal auditory expressions. The proposed approach was evaluated through a user study with 24 participants. The results demonstrate that: 1. Our proposed RL-based approach is able to learn suitable acoustic parameter values which improve the users' ability to correctly identify the state of the robot. 2. Algorithm initialization informed by previous user data can be used to significantly speed up the learning process. 3. The method used for algorithm initialization strongly influences whether participants converge to similar sounds for each robot state. 4. Modulation of pitch bend has the largest influence on user association between sounds and robotic states.
翻訳日:2024-05-01 15:33:46 公開日:2024-04-30
# Suvach -- ヒンディー語QAベンチマーク作成

Suvach -- Generated Hindi QA benchmark ( http://arxiv.org/abs/2404.19254v1 )

ライセンス: Link先を確認
Vaishak Narayanan, Prabin Raj KP, Saifudheen Nouphal, (参考訳) Indic言語における質問応答(QA)の現在の評価ベンチマークは、しばしば既存の英語データセットの機械翻訳に依存している。 このアプローチは、機械翻訳に固有のバイアスと不正確さに悩まされ、Indic言語におけるEQAモデルの真の能力を反映しないデータセットに繋がる。 本稿では,Hindi EQAモデルの評価に特化して設計された新しいベンチマークを提案する。 本手法は,大規模言語モデル(LLM)を利用して,抽出条件下で高品質なデータセットを生成する。 我々は,この新たな資源が,より正確で信頼性の高い評価ツールを提供することで,ヒンディー語NLP研究の進歩を促進すると信じている。

Current evaluation benchmarks for question answering (QA) in Indic languages often rely on machine translation of existing English datasets. This approach suffers from bias and inaccuracies inherent in machine translation, leading to datasets that may not reflect the true capabilities of EQA models for Indic languages. This paper proposes a new benchmark specifically designed for evaluating Hindi EQA models and discusses the methodology to do the same for any task. This method leverages large language models (LLMs) to generate a high-quality dataset in an extractive setting, ensuring its relevance for the target language. We believe this new resource will foster advancements in Hindi NLP research by providing a more accurate and reliable evaluation tool.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# 補償によるバイアス軽減:強化学習の視点から

Bias Mitigation via Compensation: A Reinforcement Learning Perspective ( http://arxiv.org/abs/2404.19256v1 )

ライセンス: Link先を確認
Nandhini Swaminathan, David Danks, (参考訳) AIがますます人間の意思決定と統合されるにつれて、私たちはこの2つの相互作用を慎重に検討する必要があります。 特に、現在のアプローチでは、個々のエージェントアクションの最適化に重点を置いているが、しばしば集団知性のニュアンスを見落としている。 グループダイナミクスでは、あるエージェント(例えば、AIシステム)が別のエージェント(例えば、人間)のバイアスとエラーを補償する必要があるが、この補償は慎重に開発されるべきである。 本稿では,エージェントの連続学習ダイナミクスから,ゲーム理論と強化学習原理を合成し,認識結果の自然発生を実証するアルゴリズム補償のための理論的枠組みを提案する。 マルコフ決定過程(MDP)を学習して対話するシミュレーション結果を提供する。 この研究は、動的で複雑な意思決定環境において、AIエージェントが他のエージェントのバイアスや行動に適応すべき条件の倫理的分析の基礎となる。 全体として、我々のアプローチは、人間の戦略的騙しの微妙な役割に対処し、その有害な影響に関する以前の仮定に挑戦する。 我々は、他人のバイアスに対する補償は、協調性と倫理的整合性を高めることができると主張する: 戦略的欺きは、倫理的に管理された場合、人間とAIの相互作用を肯定的に形作ることができる。

As AI increasingly integrates with human decision-making, we must carefully consider interactions between the two. In particular, current approaches focus on optimizing individual agent actions but often overlook the nuances of collective intelligence. Group dynamics might require that one agent (e.g., the AI system) compensate for biases and errors in another agent (e.g., the human), but this compensation should be carefully developed. We provide a theoretical framework for algorithmic compensation that synthesizes game theory and reinforcement learning principles to demonstrate the natural emergence of deceptive outcomes from the continuous learning dynamics of agents. We provide simulation results involving Markov Decision Processes (MDP) learning to interact. This work then underpins our ethical analysis of the conditions in which AI agents should adapt to biases and behaviors of other agents in dynamic and complex decision-making environments. Overall, our approach addresses the nuanced role of strategic deception of humans, challenging previous assumptions about its detrimental effects. We assert that compensation for others' biases can enhance coordination and ethical alignment: strategic deception, when ethically managed, can positively shape human-AI interactions.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# ソーシャルメディアネットワーク分析のための永続的ホモロジー一般化

Persistent Homology generalizations for Social Media Network Analysis ( http://arxiv.org/abs/2404.19257v1 )

ライセンス: Link先を確認
Isabela Rocha, (参考訳) 本研究では、ソーシャルメディアが収集した政治データをトポロジカル・データ・アナリティクスのレンズを通して分析するためのアプローチについて詳述し、永続的ホモロジーと、それら永続的ホモロジーのカテゴリを定義し解析するためにガウス関数を用いた数学的一般化のセットを提案する。 リツイートパターンによってプロットされ,k-Nearest-Neighbor濾過によって解析されたデータセット間で,3種類の永続化ホモロジーが再帰した。 これらの永遠のホモロジーが出現し続け、それらは分類され、核、双極星、多極星星と命名された。 これらのプロットされたツイートの内容を調べると、特定の相互作用パターンと政治的情報の拡散、すなわち政治パーソナリズムと政治分極が特定された。 ガウス密度関数のクラスタリングと応用を通じて、各カテゴリを数学的に特徴付け、それらの特徴的な位相的特徴をカプセル化してきた。 本研究で開発されたバイポーラ・核・マルチポーラ・コンステレーションの数学的一般化は、ソーシャルメディアプラットフォームから派生したデータセットにおける永続的ホモロジーを識別するために、他の政治科学のデジタルメディア研究者にこれらのカテゴリを利用するよう促すことを目的としており、これらの構造がソーシャルメディアから派生したものに関係なく、政治的スクラップデータ上に存在するというより広い仮説が示唆されている。 本手法は,パターンのリツイートによって形成されるネットワークの基盤となる形状を探索し,計算社会科学領域におけるデジタルインタラクションの理解を高めるため,ネットワーク分析における新たな視点を提供することを目的とする。

This study details an approach for the analysis of social media collected political data through the lens of Topological Data Analysis, with a specific focus on Persistent Homology and the political processes they represent by proposing a set of mathematical generalizations using Gaussian functions to define and analyze these Persistent Homology categories. Three distinct types of Persistent Homologies were recurrent across datasets that had been plotted through retweeting patterns and analyzed through the k-Nearest-Neighbor filtrations. As these Persistent Homologies continued to appear, they were then categorized and dubbed Nuclear, Bipolar, and Multipolar Constellations. Upon investigating the content of these plotted tweets, specific patterns of interaction and political information dissemination were identified, namely Political Personalism and Political Polarization. Through clustering and application of Gaussian density functions, I have mathematically characterized each category, encapsulating their distinctive topological features. The mathematical generalizations of Bipolar, Nuclear, and Multipolar Constellations developed in this study are designed to inspire other political science digital media researchers to utilize these categories as to identify Persistent Homology in datasets derived from various social media platforms, suggesting the broader hypothesis that such structures are bound to be present on political scraped data regardless of the social media it's derived from. This method aims to offer a new perspective in Network Analysis as it allows for an exploration of the underlying shape of the networks formed by retweeting patterns, enhancing the understanding of digital interactions within the sphere of Computational Social Sciences.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# DELINE8K: 歴史的文書のセマンティックセグメンテーションのための合成データパイプライン

DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents ( http://arxiv.org/abs/2404.19259v1 )

ライセンス: Link先を確認
Taylor Archibald, Tony Martinez, (参考訳) 文書セマンティックセグメンテーション(Document semantic segmentation)は、光学文字認識(OCR)、形態分類、文書編集などの文書解析作業を容易にする有望な方法である。 いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。 我々は,国立アーカイブ形式セマンティックセグメンテーションデータセット(NAFSS)を解く際に,既存のデータセットに対するトレーニングの限界を示す。 これらの制約に対処するため、我々は10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ最も包括的な文書セマンティックセマンティクス合成パイプラインを提案し、文書要素層Integration Ensemble 8K(DELINE8K)データセットを作成する。 我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。 DELINE8Kデータセットはhttps://github.com/Tahlor/deline8k.comで公開されている。

Document semantic segmentation is a promising avenue that can facilitate document analysis tasks, including optical character recognition (OCR), form classification, and document editing. Although several synthetic datasets have been developed to distinguish handwriting from printed text, they fall short in class variety and document diversity. We demonstrate the limitations of training on existing datasets when solving the National Archives Form Semantic Segmentation dataset (NAFSS), a dataset which we introduce. To address these limitations, we propose the most comprehensive document semantic segmentation synthesis pipeline to date, incorporating preprinted text, handwriting, and document backgrounds from over 10 sources to create the Document Element Layer INtegration Ensemble 8K, or DELINE8K dataset. Our customized dataset exhibits superior performance on the NAFSS benchmark, demonstrating it as a promising tool in further research. The DELINE8K dataset is available at https://github.com/Tahlor/deline8k.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# グラフ注意ネットワークを用いたアスペクト・オピニオン項抽出

Aspect and Opinion Term Extraction Using Graph Attention Network ( http://arxiv.org/abs/2404.19260v1 )

ライセンス: Link先を確認
Abir Chakraborty, (参考訳) 本研究では,グラフ注意ネットワークがアスペクトや意見用語を抽出する能力について検討する。 アスペクトと意見項の抽出は、名前付きエンティティ認識に似たトークンレベルの分類タスクとして行われる。 入力クエリの依存性ツリーを、トークンと音声のパート・オブ・音声機能とともに、グラフアテンション・ネットワークの付加機能として使用します。 CRF層が存在すると性能が大幅に向上し、SemEval 2014、2015、2016の一般的なデータセットで最高の結果が得られるという、依存関係構造が強力な機能であることを示す。 CRF層に加えて, BiLSTM や Transformer などの付加層についても実験を行った。 また,本手法は同一クエリに複数のアスペクトや感情が存在する場合にも有効であることを示す。

In this work we investigate the capability of Graph Attention Network for extracting aspect and opinion terms. Aspect and opinion term extraction is posed as a token-level classification task akin to named entity recognition. We use the dependency tree of the input query as additional feature in a Graph Attention Network along with the token and part-of-speech features. We show that the dependency structure is a powerful feature that in the presence of a CRF layer substantially improves the performance and generates the best result on the commonly used datasets from SemEval 2014, 2015 and 2016. We experiment with additional layers like BiLSTM and Transformer in addition to the CRF layer. We also show that our approach works well in the presence of multiple aspects or sentiments in the same query and it is not necessary to modify the dependency tree based on a single aspect as was the original application for sentiment classification.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# 高次元解析は、保守的なシャープニングと確率的安定性の端を明らかにする

High dimensional analysis reveals conservative sharpening and a stochastic edge of stability ( http://arxiv.org/abs/2404.19261v1 )

ライセンス: Link先を確認
Atish Agarwala, Jeffrey Pennington, (参考訳) 最近の経験的および理論的研究は、Hessianのトレーニング損失の大きな固有値のダイナミクスが、完全なバッチシステムにおけるモデルとデータセット間で驚くほど堅牢な特徴を持っていることを示している。 しばしば、大きな固有値が増加するプログレッシブ・シャープニングの初期段階があり、続いて安定性の端として知られる予測可能な値での安定化が続く。 以前の研究では、確率的な設定では固有値が徐々に増加することが示され、これは保守的なシャープニングと呼ばれる現象である。 このスローダウンの起源を示す単純な高次元モデルの理論的解析を行う。 また、大きなヘッセン固有値ではなく、ニューラル・タンジェント・カーネルのトレースに敏感な小さなバッチサイズで生じる確率的安定性の代替エッジが存在することも示している。 本研究は, 完全バッチ現象学と定性的な差異を明らかにする実験を行い, 安定性の確率的エッジの制御が最適化に役立つことを示唆する。

Recent empirical and theoretical work has shown that the dynamics of the large eigenvalues of the training loss Hessian have some remarkably robust features across models and datasets in the full batch regime. There is often an early period of progressive sharpening where the large eigenvalues increase, followed by stabilization at a predictable value known as the edge of stability. Previous work showed that in the stochastic setting, the eigenvalues increase more slowly - a phenomenon we call conservative sharpening. We provide a theoretical analysis of a simple high-dimensional model which shows the origin of this slowdown. We also show that there is an alternative stochastic edge of stability which arises at small batch size that is sensitive to the trace of the Neural Tangent Kernel rather than the large Hessian eigenvalues. We conduct an experimental study which highlights the qualitative differences from the full batch phenomenology, and suggests that controlling the stochastic edge of stability can help optimization.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# 新しい現実をマッピングする:Pix2Pix画像から画像への変換による地中真実画像作成

Mapping New Realities: Ground Truth Image Creation with Pix2Pix Image-to-Image Translation ( http://arxiv.org/abs/2404.19265v1 )

ライセンス: Link先を確認
Zhenglin Li, Bo Guan, Yuanzhou Wei, Yiming Zhou, Jingyu Zhang, Jinxin Xu, (参考訳) Generative Adversarial Networks (GANs) は画像処理が大幅に進歩し、Pix2Pix は画像から画像への変換のための重要なフレームワークである。 本稿では,抽象地図画像から現実的な地上真実画像へ変換するPix2Pixの新たな応用を探求し,都市計画や自動運転車訓練などの領域において重要な画像の不足に対処する。 Pix2Pixモデルは高忠実度データセットの生成に利用されており、ペアマップと空中画像のデータセットによってサポートされており、調整されたトレーニングレギュレーションによって強化されている。 その結果、モデルが複雑な都市の特徴を正確にレンダリングする能力を示し、その有効性と幅広い実世界の応用の可能性を確立した。

Generative Adversarial Networks (GANs) have significantly advanced image processing, with Pix2Pix being a notable framework for image-to-image translation. This paper explores a novel application of Pix2Pix to transform abstract map images into realistic ground truth images, addressing the scarcity of such images crucial for domains like urban planning and autonomous vehicle training. We detail the Pix2Pix model's utilization for generating high-fidelity datasets, supported by a dataset of paired map and aerial images, and enhanced by a tailored training regimen. The results demonstrate the model's capability to accurately render complex urban features, establishing its efficacy and potential for broad real-world applications.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# 変分自己回帰ネットワークと量子アニーリングを用いた統計力学計算

Statistical Mechanics Calculations Using Variational Autoregressive Networks and Quantum Annealing ( http://arxiv.org/abs/2404.19274v1 )

ライセンス: Link先を確認
Yuta Tamura, Masayuki Ohzeki, (参考訳) 統計力学では、分割関数の計算は一般に困難である。 近年,変分自己回帰ネットワーク(VAN)を用いた近似法が提案されている。 このアプローチは、非常に多くのサンプルを取得しながら、生成確率を直接計算する利点を提供する。 本研究は, 量子熱処理装置から得られた試料を, ギブス・ボルツマン分布に付着すると仮定した新しい近似法を提案する。 有限サイズシェリントン・カークパトリックモデルに適用した場合,提案手法は,従来のVANアプローチや,広く利用されるナイーブ平均場などの近似手法と比較して精度が向上することを示した。

In statistical mechanics, computing the partition function is generally difficult. An approximation method using a variational autoregressive network (VAN) has been proposed recently. This approach offers the advantage of directly calculating the generation probabilities while obtaining a significantly large number of samples. The present study introduces a novel approximation method that employs samples derived from quantum annealing machines in conjunction with VAN, which are empirically assumed to adhere to the Gibbs-Boltzmann distribution. When applied to the finite-size Sherrington-Kirkpatrick model, the proposed method demonstrates enhanced accuracy compared to the traditional VAN approach and other approximate methods, such as the widely utilized naive mean field.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# C2FDrone:視覚変換器ネットワークを用いた粗大なドローン間距離検出

C2FDrone: Coarse-to-Fine Drone-to-Drone Detection using Vision Transformer Networks ( http://arxiv.org/abs/2404.19276v1 )

ライセンス: Link先を確認
Sairam VC Rebbapragada, Pranoy Panda, Vineeth N Balasubramanian, (参考訳) 衝突回避、敵のドローン対策、捜索救助活動など、さまざまな用途において、視覚に基づくドローンからドローンまでの検出システムは不可欠である。 しかし、ドローンの検出には、小さなオブジェクトのサイズ、歪み、閉塞、リアルタイム処理要求など、ユニークな課題がある。 マルチスケールな特徴融合と時間情報を統合する現在の手法は、極端にぼやけたオブジェクトや極小オブジェクトを扱う場合に制限がある。 そこで本研究では,視覚変換器に基づく粗大な検出手法を提案する。 FL-Drones,AOT,NPS-Dronesの各データセットでF1スコアが7%,3%,1%向上した。 さらに、エッジコンピューティングデバイスにモデルをデプロイすることで、リアルタイム処理能力を実演する。 私たちのコードは公開されます。

A vision-based drone-to-drone detection system is crucial for various applications like collision avoidance, countering hostile drones, and search-and-rescue operations. However, detecting drones presents unique challenges, including small object sizes, distortion, occlusion, and real-time processing requirements. Current methods integrating multi-scale feature fusion and temporal information have limitations in handling extreme blur and minuscule objects. To address this, we propose a novel coarse-to-fine detection strategy based on vision transformers. We evaluate our approach on three challenging drone-to-drone detection datasets, achieving F1 score enhancements of 7%, 3%, and 1% on the FL-Drones, AOT, and NPS-Drones datasets, respectively. Additionally, we demonstrate real-time processing capabilities by deploying our model on an edge-computing device. Our code will be made publicly available.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# 非バリア通信へのブリッジ:拡散モデルによるグロスプロンプされた微細きめ細かなキュード音声ジェスチャ生成

Bridge to Non-Barrier Communication: Gloss-Prompted Fine-grained Cued Speech Gesture Generation with Diffusion Model ( http://arxiv.org/abs/2404.19277v1 )

ライセンス: Link先を確認
Wentao Lei, Li Liu, Jun Wang, (参考訳) Cued Speech (CS) は、唇読取と手話の符号化を統合し、聴覚障害のある人が効率的にコミュニケーションできる高度な視覚音声符号化システムである。 CSビデオ生成は、音声やテキスト入力からCSの特定の唇とジェスチャーの動きを生成することを目的としている。 主な課題は、CSデータに制限がある場合、細粒度の手と指の動きと唇の動きを同時に生成し、同時に2種類の動きを非同期に調整する必要があることである。 既存のCS生成手法は、テンプレートベースの統計モデルと手作りの事前処理がモデルに適合するため、脆弱であり、性能が劣る傾向にある。 そこで我々はGross-prompted Diffusion-based CS Gesture Generation framework (GrossDiff)を提案する。 具体的には、追加の言語規則知識をモデルに統合する。 これは、音声言語とCSジェスチャー間の直接的かつより繊細なセマンティックな接続を確立するために、自動生成された記述テキストである。 さらに,我々はまず,CSがコミュニケーション効率を向上させるために,リズムが重要なパラ言語的特徴であることを示唆した。 そこで本研究では、音声音声にマッチするリズムを学習するための新しい音声駆動リズムモジュール(ARM)を提案する。 さらに,本研究では,中国初のCSデータセットを4つのCSキューで設計し,記録し,公開する。 実験により,本手法が現在最先端(SOTA)法より定量的に,質的に優れていることを示した。 コードとデータはhttps://glossdiff.github.io/で公開しています。

Cued Speech (CS) is an advanced visual phonetic encoding system that integrates lip reading with hand codings, enabling people with hearing impairments to communicate efficiently. CS video generation aims to produce specific lip and gesture movements of CS from audio or text inputs. The main challenge is that given limited CS data, we strive to simultaneously generate fine-grained hand and finger movements, as well as lip movements, meanwhile the two kinds of movements need to be asynchronously aligned. Existing CS generation methods are fragile and prone to poor performance due to template-based statistical models and careful hand-crafted pre-processing to fit the models. Therefore, we propose a novel Gloss-prompted Diffusion-based CS Gesture generation framework (called GlossDiff). Specifically, to integrate additional linguistic rules knowledge into the model. we first introduce a bridging instruction called \textbf{Gloss}, which is an automatically generated descriptive text to establish a direct and more delicate semantic connection between spoken language and CS gestures. Moreover, we first suggest rhythm is an important paralinguistic feature for CS to improve the communication efficacy. Therefore, we propose a novel Audio-driven Rhythmic Module (ARM) to learn rhythm that matches audio speech. Moreover, in this work, we design, record, and publish the first Chinese CS dataset with four CS cuers. Extensive experiments demonstrate that our method quantitatively and qualitatively outperforms current state-of-the-art (SOTA) methods. We release the code and data at https://glossdiff.github.io/.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# Quater-GCN: オリエンテーションと半教師ありトレーニングによる3次元人文推定の強化

Quater-GCN: Enhancing 3D Human Pose Estimation with Orientation and Semi-supervised Training ( http://arxiv.org/abs/2404.19279v1 )

ライセンス: Link先を確認
Xingyu Song, Zhan Li, Shi Chen, Kazuyuki Demachi, (参考訳) 3次元人間のポーズ推定は、画像やビデオから人間の関節の位置を予測し、3次元空間で人間の骨格を再構築するコンピュータビジョンにおいて重要なタスクである。 この技術は、アニメーション、セキュリティ、人間とコンピュータのインタラクション、自動車の安全性など、様々な分野において中心的であり、技術進歩と人間の幸福の向上の両方を促進する。 深層学習の出現は、人間の関節の空間的位置を予測するための時間情報を導入して、3次元ポーズ推定の性能を著しく向上させる。 しかし、従来の手法は、主に関節の空間座標に焦点をあて、連結骨の向きと回転を見渡すため、しばしば不足する。 これらの制約に対処するために、向きによるポーズ推定を強化するように調整された有向グラフ畳み込みネットワークであるQuater-GCN(Q-GCN)を導入する。 Q-GCNは、座標を通してノード関節間の空間的依存関係をキャプチャするだけでなく、2次元空間における骨の回転の動的コンテキストを統合することで、排他的に優れている。 このアプローチにより、人間のポーズをより洗練された表現が可能となり、3次元空間における各骨の向きを後退させ、単なる座標予測を超えて移動させる。 さらに,本モデルとラベルなしデータを活用した半教師付きトレーニング戦略を補完し,限定的な向き付け基底真理データの課題に対処する。 総合的な評価を通じて、Q-GCNは現在の最先端手法に対して優れた性能を示した。

3D human pose estimation is a vital task in computer vision, involving the prediction of human joint positions from images or videos to reconstruct a skeleton of a human in three-dimensional space. This technology is pivotal in various fields, including animation, security, human-computer interaction, and automotive safety, where it promotes both technological progress and enhanced human well-being. The advent of deep learning significantly advances the performance of 3D pose estimation by incorporating temporal information for predicting the spatial positions of human joints. However, traditional methods often fall short as they primarily focus on the spatial coordinates of joints and overlook the orientation and rotation of the connecting bones, which are crucial for a comprehensive understanding of human pose in 3D space. To address these limitations, we introduce Quater-GCN (Q-GCN), a directed graph convolutional network tailored to enhance pose estimation by orientation. Q-GCN excels by not only capturing the spatial dependencies among node joints through their coordinates but also integrating the dynamic context of bone rotations in 2D space. This approach enables a more sophisticated representation of human poses by also regressing the orientation of each bone in 3D space, moving beyond mere coordinate prediction. Furthermore, we complement our model with a semi-supervised training strategy that leverages unlabeled data, addressing the challenge of limited orientation ground truth data. Through comprehensive evaluations, Q-GCN has demonstrated outstanding performance against current state-of-the-art methods.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# MAP-Former:マルチエージェントペアガウス関節予測

MAP-Former: Multi-Agent-Pair Gaussian Joint Prediction ( http://arxiv.org/abs/2404.19283v1 )

ライセンス: Link先を確認
Marlon Steiner, Marvin Klemp, Christoph Stiller, (参考訳) 交通行動予測モジュールから得られる軌道情報と実際に必要とされるものとの間には,軌道のリスク評価のギャップがある。 このギャップを閉じるには、現在のプラクティスを超えた予測の進歩が必要である。 既存の予測モデルでは、単一エージェントに対する不確実な重み付きエージェントの将来の軌道の合同予測やガウス確率密度関数(PDF)が得られている。 これらの手法は高精度な軌道予測を実現するが、相互作用するエージェントの依存関係に関する情報はほとんど、あるいは全く提供しない。 交通は、相互行動に直接影響を及ぼす非常に相互依存的なエージェントのプロセスであるため、既存の手法は将来の軌道のリスクを確実に評価するのに十分ではない。 本稿では, エージェントペアの共分散行列を 'scene-centric'' 方式で予測し, シーン内のすべてのエージェントペアに対してガウス共同PDFをモデル化する, 動作予測の新しいアプローチを導入することで, ギャップを解消する。 本稿では,これらのエージェント対共分散行列を予測可能なモデルを提案する。 本研究は,提案モデルの予測結果を活用することで,統計的手法を用いた総合的リスクアセスメントの基盤となる。

There is a gap in risk assessment of trajectories between the trajectory information coming from a traffic motion prediction module and what is actually needed. Closing this gap necessitates advancements in prediction beyond current practices. Existing prediction models yield joint predictions of agents' future trajectories with uncertainty weights or marginal Gaussian probability density functions (PDFs) for single agents. Although, these methods achieve high accurate trajectory predictions, they only provide little or no information about the dependencies of interacting agents. Since traffic is a process of highly interdependent agents, whose actions directly influence their mutual behavior, the existing methods are not sufficient to reliably assess the risk of future trajectories. This paper addresses that gap by introducing a novel approach to motion prediction, focusing on predicting agent-pair covariance matrices in a ``scene-centric'' manner, which can then be used to model Gaussian joint PDFs for all agent-pairs in a scene. We propose a model capable of predicting those agent-pair covariance matrices, leveraging an enhanced awareness of interactions. Utilizing the prediction results of our model, this work forms the foundation for comprehensive risk assessment with statistically based methods for analyzing agents' relations by their joint PDFs.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# 動的データセットの近似近傍探索に関する研究

Approximate Nearest Neighbour Search on Dynamic Datasets: An Investigation ( http://arxiv.org/abs/2404.19284v1 )

ライセンス: Link先を確認
Ben Harwood, Amir Dezfouli, Iadine Chades, Conrad Sanderson, (参考訳) 近似k-Nearest Neighbour (ANN) 法は情報マイニングや大規模高次元データセットでの機械学習支援によく用いられる。 ANN法は通常、検索の高速化に使用されるインデックス構造が異なるため、様々なリコール/実行時のトレードオフ点が生じる。 静的なデータセットを持つアプリケーションでは、ランタイム制約とデータセットプロパティを使用して、適切な操作特性を持つANNメソッドを経験的に選択することができる。 しかし、オンラインの頻繁な変更(新しいサンプルの追加など)の対象となる動的データセットを持つアプリケーションでは、どのANNメソッドが最も適しているかについては、現時点では合意が得られていない。 従来の評価手法では、インデックス構造を更新する際の計算コストや、インデックス更新の頻度やサイズを考慮していない。 これを解決するために、これらの考慮を考慮しつつ、2つの主要なアプリケーション(オンラインデータ収集とオンライン特徴学習)で5つの人気のあるANN手法を実証的に評価する。 100万のサンプルを持つSIFT1Mデータセットと10億のサンプルを持つDEEP1Bデータセットから派生した2つの動的データセットが使用されている。 その結果,k-d木法は,単純なベースライン探索法よりも遅いため,動的データセットには適さないことがわかった。 オンラインデータ収集において、階層ナビゲート可能な小型世界グラフ法は、幅広いリコールレートでベースラインを一貫したスピードアップを達成する。 オンライン機能学習において、スケーラブルなNearest Neighboursメソッドは75%未満のリコール率のベースラインよりも高速である。

Approximate k-Nearest Neighbour (ANN) methods are often used for mining information and aiding machine learning on large scale high-dimensional datasets. ANN methods typically differ in the index structure used for accelerating searches, resulting in various recall/runtime trade-off points. For applications with static datasets, runtime constraints and dataset properties can be used to empirically select an ANN method with suitable operating characteristics. However, for applications with dynamic datasets, which are subject to frequent online changes (like addition of new samples), there is currently no consensus as to which ANN methods are most suitable. Traditional evaluation approaches do not consider the computational costs of updating the index structure, as well as the frequency and size of index updates. To address this, we empirically evaluate 5 popular ANN methods on two main applications (online data collection and online feature learning) while taking into account these considerations. Two dynamic datasets are used, derived from the SIFT1M dataset with 1 million samples and the DEEP1B dataset with 1 billion samples. The results indicate that the often used k-d trees method is not suitable on dynamic datasets as it is slower than a straightforward baseline exhaustive search method. For online data collection, the Hierarchical Navigable Small World Graphs method achieves a consistent speedup over baseline across a wide range of recall rates. For online feature learning, the Scalable Nearest Neighbours method is faster than baseline for recall rates below 75%.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# ドメイン一般化のためのソフトプロンプト生成

Soft Prompt Generation for Domain Generalization ( http://arxiv.org/abs/2404.19286v1 )

ライセンス: Link先を確認
Shuanghao Bai, Yuedi Zhang, Wanqi Zhou, Zhirong Luan, Badong Chen, (参考訳) 大規模な事前学習型視覚言語モデル(VLM)は、手動で設計したプロンプトで下流タスクに印象的なゼロショット能力を示しており、特定のドメインには最適ではない。 VLMを下流タスクにさらに適応させるために、ソフトプロンプトは、特定のドメインデータに基づいて微調整を行う学習ベクトルとして機能する手作業で設計されたプロンプトを置き換えることが提案されている。 事前のプロンプト学習方法は、主にトレーニングサンプルから固定されたプロンプトと予約されたプロンプトを学習する。 しかし、学習されたプロンプトは多様性を欠き、未知のドメインに関する情報を無視し、プロンプトの転送可能性に悪影響を及ぼす可能性がある。 本稿では,素早い学習フレームワークを生成的観点から再構成し,ドメイン一般化(DG)タスク,すなわち,textbf{S}oft \textbf{P}rompt \textbf{G}eneration (SPG)を提案する。 我々の知る限りでは、私たちはVLMにおける即興学習に生成モデルを導入し、生成モデルにのみ依存し、プロンプトの多様性を確保することにより、ソフトプロンプトの創出の可能性を探究する最初の人物である。 具体的には、SPGは2段階のトレーニングフェーズと推論フェーズから構成される。 トレーニングフェーズでは,各ドメインに対するソフトプロンプトラベルを導入し,生成モデルドメインの知識を取り入れることを目的とした。 推論フェーズでは、生成モデルのジェネレータを使用して、未知のターゲットドメインに対してインスタンス固有のソフトプロンプトを得る。 3つのDGタスクの5つの領域一般化ベンチマークの大規模な実験により、提案したSPGが最先端の性能を達成することを示す。 コードはまもなく利用可能になる。

Large pre-trained vision language models (VLMs) have shown impressive zero-shot ability on downstream tasks with manually designed prompt, which are not optimal for specific domains. To further adapt VLMs to downstream tasks, soft prompt is proposed to replace manually designed prompt, which acts as a learning vector that undergoes fine-tuning based on specific domain data. Prior prompt learning methods primarily learn a fixed prompt and residuled prompt from training samples. However, the learned prompts lack diversity and ignore information about unseen domains, potentially compromising the transferability of the prompts. In this paper, we reframe the prompt learning framework from a generative perspective and propose a simple yet efficient method for the Domain Generalization (DG) task, namely \textbf{S}oft \textbf{P}rompt \textbf{G}eneration (SPG). To the best of our knowledge, we are the first to introduce the generative model into prompt learning in VLMs and explore its potential for producing soft prompts by relying solely on the generative model, ensuring the diversity of prompts. Specifically, SPG consists of a two-stage training phase and an inference phase. During the training phase, we introduce soft prompt labels for each domain, aiming to incorporate the generative model domain knowledge. During the inference phase, the generator of the generative model is employed to obtain instance-specific soft prompts for the unseen target domain. Extensive experiments on five domain generalization benchmarks of three DG tasks demonstrate that our proposed SPG achieves state-of-the-art performance. The code will be available soon.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# 視覚言語モデルの敵対的ロバスト性を再考する:マルチモーダル視点

Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective ( http://arxiv.org/abs/2404.19287v1 )

ライセンス: Link先を確認
Wanqi Zhou, Shuanghao Bai, Qibin Zhao, Badong Chen, (参考訳) CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる優れた一般化性能を示しているが、敵の攻撃には弱いままである。 従来の研究は主に、画像に対する攻撃を防ぐために画像エンコーダの対向的堅牢性を改善することに集中してきたが、テキストベースおよびマルチモーダル攻撃の探索は概ね見過ごされてきた。 本研究は,マルチモーダル攻撃下での対角的ロバスト性に対する適応型視覚言語モデルの研究を初めて開始する。 まず,マルチモーダル攻撃戦略を導入し,異なる攻撃の影響について検討する。 次に,CLIPの画像エンコーダとテキストエンコーダの双方の対向的堅牢性を高めるために,クリーン・対向的テキスト埋め込みと,逆向的かつクリーンな視覚的特徴とを整合させるマルチモーダル対向的トレーニング損失を提案する。 2つのタスクにまたがる15のデータセットに対する大規模な実験により、我々の手法はCLIPの対角的堅牢性を大幅に改善することを示した。 興味深いことに、マルチモーダル攻撃に対して微調整されたモデルの方が、画像ベースの攻撃に対してのみ微調整されたモデルよりも堅牢性が高いことが判明した。

Pretrained vision-language models (VLMs) like CLIP have shown impressive generalization performance across various downstream tasks, yet they remain vulnerable to adversarial attacks. While prior research has primarily concentrated on improving the adversarial robustness of image encoders to guard against attacks on images, the exploration of text-based and multimodal attacks has largely been overlooked. In this work, we initiate the first known and comprehensive effort to study adapting vision-language models for adversarial robustness under the multimodal attack. Firstly, we introduce a multimodal attack strategy and investigate the impact of different attacks. We then propose a multimodal contrastive adversarial training loss, aligning the clean and adversarial text embeddings with the adversarial and clean visual features, to enhance the adversarial robustness of both image and text encoders of CLIP. Extensive experiments on 15 datasets across two tasks demonstrate that our method significantly improves the adversarial robustness of CLIP. Interestingly, we find that the model fine-tuned against multimodal adversarial attacks exhibits greater robustness than its counterpart fine-tuned solely against image-based attacks, even in the context of image attacks, which may open up new possibilities for enhancing the security of VLMs.
翻訳日:2024-05-01 15:23:59 公開日:2024-04-30
# 学習不要グラフニューラルネットワークとラベルのパワー

Training-free Graph Neural Networks and the Power of Labels as Features ( http://arxiv.org/abs/2404.19288v1 )

ライセンス: Link先を確認
Ryoma Sato, (参考訳) トレーニング不要なグラフニューラルネットワーク (TFGNN) を提案する。 まずラベル・アズ・ア・フィーチャー(LaF)を提唱する。 グラフニューラルネットワークの表現力をLaFが向上することを示す。 この分析に基づいてTFGNNを設計する。 実験では、TFGNNがトレーニングフリー設定において既存のGNNよりも優れており、従来のGNNよりもはるかに少ないトレーニングイテレーションで収束していることを確認した。

We propose training-free graph neural networks (TFGNNs), which can be used without training and can also be improved with optional training, for transductive node classification. We first advocate labels as features (LaF), which is an admissible but not explored technique. We show that LaF provably enhances the expressive power of graph neural networks. We design TFGNNs based on this analysis. In the experiments, we confirm that TFGNNs outperform existing GNNs in the training-free setting and converge with much fewer training iterations than traditional GNNs.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 自己指導型学習のアルゴリズム・モデル・データ効率の改善について

On Improving the Algorithm-, Model-, and Data- Efficiency of Self-Supervised Learning ( http://arxiv.org/abs/2404.19289v1 )

ライセンス: Link先を確認
Yun-Hao Cao, Jianxin Wu, (参考訳) 近年,自己指導型学習(SSL)が急速に発展している。 しかし、ほとんどの主流の手法は計算に高価であり、正のペアを構成するために各画像に対して2つ(またはそれ以上)の拡張に依存している。 さらに、主に大規模なモデルと大規模なデータセットに焦点を当てており、多くの実用的なアプリケーションで柔軟性と実現性に欠ける。 本稿では,SSLのアルゴリズム,モデル,データ効率を改善することを目的とした,非パラメトリックなインスタンス識別に基づく効率的な単一ブランチSSL手法を提案する。 勾配式を解析することにより,メモリバンクの更新規則を改良して修正する。 さらに、確率分布と平方根のKL分散を最小化する新しい自己蒸留損失を提案する。 これにより、インスタンス識別における頻繁な更新問題を軽減し、収束を大幅に加速することを示す。 異なるデータスケールで、異なるバックボーンの下で、異なるメソッドのトレーニングオーバーヘッドとパフォーマンスを体系的に比較する。 実験結果から,本手法はオーバーヘッドが著しく少なく,様々なベースラインよりも優れており,特に限られたデータ量や小モデルに対して有効であることがわかった。

Self-supervised learning (SSL) has developed rapidly in recent years. However, most of the mainstream methods are computationally expensive and rely on two (or more) augmentations for each image to construct positive pairs. Moreover, they mainly focus on large models and large-scale datasets, which lack flexibility and feasibility in many practical applications. In this paper, we propose an efficient single-branch SSL method based on non-parametric instance discrimination, aiming to improve the algorithm, model, and data efficiency of SSL. By analyzing the gradient formula, we correct the update rule of the memory bank with improved performance. We further propose a novel self-distillation loss that minimizes the KL divergence between the probability distribution and its square root version. We show that this alleviates the infrequent updating problem in instance discrimination and greatly accelerates convergence. We systematically compare the training overhead and performance of different methods in different scales of data, and under different backbones. Experimental results show that our method outperforms various baselines with significantly less overhead, and is especially effective for limited amounts of data and small models.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 多エージェント強化学習のための確率的情報指向サンプリングアルゴリズム

Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2404.19292v1 )

ライセンス: Link先を確認
Qiaosheng Zhang, Chenjia Bai, Shuyue Hu, Zhen Wang, Xuelong Li, (参考訳) 本研究は,情報指向サンプリング(IDS)の原理に基づいて,マルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。 これらのアルゴリズムは情報理論の基本概念からインスピレーションを得ており、2プレイヤーのゼロサムマルコフゲーム(MG)やマルチプレイヤーのジェネラルサムMGなどのMARL設定においてサンプリング効率が良いことが証明されている。 エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。 MAIDSと呼ばれる基本的なアルゴリズムは非対称な学習構造を用いており、そこでは、まず、最大プレイヤが結合ポリシーのジョイント情報比に基づいて最小マックス最適化問題を解き、最小プレイヤは最大プレイヤのポリシーを固定した限界情報比を最小化する。 理論的解析により,K エピソードに対する tilde{O}(sqrt{K}) のベイズ的後悔が達成された。 MAIDSの計算負荷を低減するため,計算複雑性の少ないベイズ的後悔境界を持つReg-MAIDSアルゴリズムを開発した。 さらに, 学習対象の選択におけるIDS原理の柔軟性を活用し, 速度歪み理論に基づく圧縮環境構築法を提案し, 学習対象が圧縮環境である圧縮・MAIDSアルゴリズムを開発した。 最後に、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明した。

This work designs and analyzes a novel set of algorithms for multi-agent reinforcement learning (MARL) based on the principle of information-directed sampling (IDS). These algorithms draw inspiration from foundational concepts in information theory, and are proven to be sample efficient in MARL settings such as two-player zero-sum Markov games (MGs) and multi-player general-sum MGs. For episodic two-player zero-sum MGs, we present three sample-efficient algorithms for learning Nash equilibrium. The basic algorithm, referred to as MAIDS, employs an asymmetric learning structure where the max-player first solves a minimax optimization problem based on the joint information ratio of the joint policy, and the min-player then minimizes the marginal information ratio with the max-player's policy fixed. Theoretical analyses show that it achieves a Bayesian regret of tilde{O}(sqrt{K}) for K episodes. To reduce the computational load of MAIDS, we develop an improved algorithm called Reg-MAIDS, which has the same Bayesian regret bound while enjoying less computational complexity. Moreover, by leveraging the flexibility of IDS principle in choosing the learning target, we propose two methods for constructing compressed environments based on rate-distortion theory, upon which we develop an algorithm Compressed-MAIDS wherein the learning target is a compressed environment. Finally, we extend Reg-MAIDS to multi-player general-sum MGs and prove that it can learn either the Nash equilibrium or coarse correlated equilibrium in a sample efficient manner.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 空間的空間伝搬ネットワークによる疎度適応深度微細化

Masked Spatial Propagation Network for Sparsity-Adaptive Depth Refinement ( http://arxiv.org/abs/2404.19294v1 )

ライセンス: Link先を確認
Jinyoung Jun, Jae-Han Lee, Chang-Su Kim, (参考訳) ディープコンプリートの主な機能は、ハードウェアセンサーのスパースディープ測定が不十分で予測不能な回数を補うことである。 しかし、既存の深度補完に関する調査では、ポイント数やLiDARラインの間隔がトレーニングやテストのために固定されていると推定されている。 これにより、スパース深さが著しく変化すると、完了性能が著しく低下する。 この問題に対処するために,スパース深度点を用いた単分子深度推定を洗練するスペーシティ適応深度補正(SDR)フレームワークを提案する。 SDR では,空間伝播ネットワーク (MSPN) を用いて,深度マップ全体を通してスパース深度情報を段階的に伝播させることにより,スパース深度の変化を効果的に行うことを提案する。 実験結果から,MPSNはSDRと従来の深度補完シナリオの両方で最先端の性能を実現することが示された。

The main function of depth completion is to compensate for an insufficient and unpredictable number of sparse depth measurements of hardware sensors. However, existing research on depth completion assumes that the sparsity -- the number of points or LiDAR lines -- is fixed for training and testing. Hence, the completion performance drops severely when the number of sparse depths changes significantly. To address this issue, we propose the sparsity-adaptive depth refinement (SDR) framework, which refines monocular depth estimates using sparse depth points. For SDR, we propose the masked spatial propagation network (MSPN) to perform SDR with a varying number of sparse depths effectively by gradually propagating sparse depth information throughout the entire depth map. Experimental results demonstrate that MPSN achieves state-of-the-art performance on both SDR and conventional depth completion scenarios.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# Octopus v4: 言語モデルのグラフ

Octopus v4: Graph of language models ( http://arxiv.org/abs/2404.19296v1 )

ライセンス: Link先を確認
Wei Chen, Zhiyuan Li, (参考訳) 言語モデルは広範囲のアプリケーションで有効であるが、最も洗練されたモデルはプロプライエタリであることが多い。 例えば OpenAI による GPT-4 や Anthropic による様々なモデルは高価であり、かなりのエネルギーを消費する。 対照的に、オープンソースコミュニティは、Llama3のような競合モデルを生み出している。 さらに、法的、医学的、財政的なタスクに適したニッチ固有の小さな言語モデルは、独自の言語よりも優れています。 本稿では,特定のタスクに最適化された \textbf{multiple open-source model} を統合するために, \textit{functional tokens} を利用する新しいアプローチを提案する。 新たに開発したOctopus v4モデルは,‘textit{functional tokens’を利用して,ユーザクエリを最も適切な垂直モデルにインテリジェントにダイレクトし,クエリを再フォーマットして最高のパフォーマンスを実現する。 Octopus v4はOctopus v1、v2、v3モデルの進化であり、選択とパラメータ理解と再フォーマットに優れている。 さらに,Octopus モデルと \textit{functional tokens} の機能を利用して,複数のオープンソースモデルを効果的にコーディネートする汎用データ構造としてのグラフの利用について検討する。 オープンソースのGitHub(\url{https://www.nexa4ai.com/})を使ってOctopus v4モデルを試す(\url{https://huggingface.co/NexaAIDev/Octopus-v4})。 10Bパラメータ未満のモデルを活性化することにより、同じレベルモデルのうち74.8のSOTA MMLUスコアを達成できた。

Language models have been effective in a wide range of applications, yet the most sophisticated models are often proprietary. For example, GPT-4 by OpenAI and various models by Anthropic are expensive and consume substantial energy. In contrast, the open-source community has produced competitive models, like Llama3. Furthermore, niche-specific smaller language models, such as those tailored for legal, medical or financial tasks, have outperformed their proprietary counterparts. This paper introduces a novel approach that employs \textit{functional tokens} to integrate \textbf{multiple open-source models}, each optimized for particular tasks. Our newly developed Octopus v4 model leverages \textit{functional tokens} to intelligently direct user queries to the most appropriate vertical model and reformat the query to achieve the best performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models, excels in selection and parameter understanding and reformatting. Additionally, we explore the use of graph as a versatile data structure that effectively coordinates multiple open-source models by harnessing the capabilities of the Octopus model and \textit{functional tokens}. Use our open-sourced GitHub (\url{https://www.nexa4ai.com/}) to try Octopus v4 models (\url{https://huggingface.co/NexaAIDev/Octopus-v4}), and contrite to a larger graph of language models. By activating models less than 10B parameters, we achieved SOTA MMLU score of 74.8 among the same level models.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 冗長な歩行者知識銀行の構築によるロバスト歩行者検出

Robust Pedestrian Detection via Constructing Versatile Pedestrian Knowledge Bank ( http://arxiv.org/abs/2404.19299v1 )

ライセンス: Link先を確認
Sungjune Park, Hyunjun Kim, Yong Man Ro, (参考訳) 歩行者検出はコンピュータビジョン研究の重要な分野であり、様々な現実世界の応用(例えば、自動運転システム)に応用できる。 しかしながら、歩行者検出の顕著な進化にもかかわらず、検出フレームワーク内で学習された歩行者表現は通常、訓練された特定のシーンデータに限られる。 そこで本稿では, 多様な検知手法に適用可能な, 多様な場面に適用可能な, 代表的歩行者知識を含む多目的歩行者知識銀行を構築するための, 新たなアプローチを提案する。 我々は,大規模な事前学習モデルから一般化された歩行者知識を抽出し,代表的な特徴を定量化し,背景のシーンと区別できるように指導することにより,それらをキュレートする。 最後に、このような表現からなる多目的歩行者知識銀行を構築し、それを利用して歩行者検出フレームワーク内の歩行者特徴を補完し、拡張する。 総合的な実験を通じて,本手法の有効性を検証し,その汎用性を実証し,最先端検出性能を向上する。

Pedestrian detection is a crucial field of computer vision research which can be adopted in various real-world applications (e.g., self-driving systems). However, despite noticeable evolution of pedestrian detection, pedestrian representations learned within a detection framework are usually limited to particular scene data in which they were trained. Therefore, in this paper, we propose a novel approach to construct versatile pedestrian knowledge bank containing representative pedestrian knowledge which can be applicable to various detection frameworks and adopted in diverse scenes. We extract generalized pedestrian knowledge from a large-scale pretrained model, and we curate them by quantizing most representative features and guiding them to be distinguishable from background scenes. Finally, we construct versatile pedestrian knowledge bank which is composed of such representations, and then we leverage it to complement and enhance pedestrian features within a pedestrian detection framework. Through comprehensive experiments, we validate the effectiveness of our method, demonstrating its versatility and outperforming state-of-the-art detection performances.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 統計学と説明可能性:実りある同盟

Statistics and explainability: a fruitful alliance ( http://arxiv.org/abs/2404.19301v1 )

ライセンス: Link先を確認
Valentina Ghidini, (参考訳) 本稿では,説明可能性の文献で一般的に強調される問題に対する解法として,標準的な統計ツールを提案する。 実際、統計的推定器を利用することで、説明の適切な定義が可能になり、理論的な保証と評価指標の定式化を可能にして、説明の質を定量的に評価することができる。 このアプローチは、特に、現在文学で普及している主観的人間評価を回避している。 さらに、確実な定量化は堅牢で信頼性の高い説明を提供する上で不可欠であり、ブートストラップのような古典的な統計的手続きによってこの枠組みで達成できると論じる。 しかし、統計学が貴重な貢献をしている一方で、すべての課題を解決するためのパナセアではないことに注意する必要がある。 将来の研究の道は、説明の目的を定義したり、反実的あるいは敵対的なシナリオの統計的枠組みを確立するなど、オープンな問題に焦点を当てる可能性がある。

In this paper, we propose standard statistical tools as a solution to commonly highlighted problems in the explainability literature. Indeed, leveraging statistical estimators allows for a proper definition of explanations, enabling theoretical guarantees and the formulation of evaluation metrics to quantitatively assess the quality of explanations. This approach circumvents, among other things, the subjective human assessment currently prevalent in the literature. Moreover, we argue that uncertainty quantification is essential for providing robust and trustworthy explanations, and it can be achieved in this framework through classical statistical procedures such as the bootstrap. However, it is crucial to note that while Statistics offers valuable contributions, it is not a panacea for resolving all the challenges. Future research avenues could focus on open problems, such as defining a purpose for the explanations or establishing a statistical framework for counterfactual or adversarial scenarios.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 医学における人工知能のデータセット・ターミノロジー : 歴史と勧告

Data Set Terminology of Artificial Intelligence in Medicine: A Historical Review and Recommendation ( http://arxiv.org/abs/2404.19303v1 )

ライセンス: Link先を確認
Shannon L. Walston, Hiroshi Seki, Hirotaka Takita, Yasuhito Mitsuyama, Shingo Sato, Akifumi Hagiwara, Rintaro Ito, Shouhei Hanaoka, Yukio Miki, Daiju Ueda, (参考訳) 医学と人工知能(AI)工学は、何十年もの歴史を持つ2つの異なる分野を表している。 このような歴史によって、特定の方法が適用される一連の用語がもたらされる。 しかし、重複する用語の異なる2つの分野が協調し始めると、誤解や誤解が発生することがある。 この物語レビューは、これらの用語の歴史的文脈を与え、これらの用語が医療AIの文脈で使用されるときの明確さの重要性を強調し、どちらの分野からの読者による誤解を軽減するソリューションを提供することを目的としている。 このレビューは、記事、執筆ガイドライン、教科書を含む歴史文献の検証を通じて、データセットの用語とその影響の相違した進化を辿るものである。 当初、医療とAIの文脈における「バリデーション」という言葉の不協和な解釈が検討された。 次に、AI評価に使用されるデータセット、すなわちランダム分割、クロスバリデーション、時間、地理的、内部、外部セットを分類する。 これらのデータセットの正確で標準化された記述は、医学におけるAIアプリケーションの堅牢性と一般化性を示すために不可欠である。 このレビューは、これらの分類の包括的理解と、AI評価におけるそれらの影響を明らかにするために、既存の文献を明確にする。 このレビューは、しばしば誤解される用語を特定し、用語的混乱を軽減するための実用的な解決策を提案する。 これらのソリューションには、"トレーニングセット"、"検証(あるいはチューニング)セット"、"テストセット"といった標準化された用語の使用、各医療AI研究出版物におけるデータセット分割用語の明示的な定義などがある。 このレビューは、医療AIにおけるコミュニケーションの精度を高めることを目的としており、この学際分野におけるより効果的で透明な研究方法論を育むことを目的としている。

Medicine and artificial intelligence (AI) engineering represent two distinct fields each with decades of published history. With such history comes a set of terminology that has a specific way in which it is applied. However, when two distinct fields with overlapping terminology start to collaborate, miscommunication and misunderstandings can occur. This narrative review aims to give historical context for these terms, accentuate the importance of clarity when these terms are used in medical AI contexts, and offer solutions to mitigate misunderstandings by readers from either field. Through an examination of historical documents, including articles, writing guidelines, and textbooks, this review traces the divergent evolution of terms for data sets and their impact. Initially, the discordant interpretations of the word 'validation' in medical and AI contexts are explored. Then the data sets used for AI evaluation are classified, namely random splitting, cross-validation, temporal, geographic, internal, and external sets. The accurate and standardized description of these data sets is crucial for demonstrating the robustness and generalizability of AI applications in medicine. This review clarifies existing literature to provide a comprehensive understanding of these classifications and their implications in AI evaluation. This review then identifies often misunderstood terms and proposes pragmatic solutions to mitigate terminological confusion. Among these solutions are the use of standardized terminology such as 'training set,' 'validation (or tuning) set,' and 'test set,' and explicit definition of data set splitting terminologies in each medical AI research publication. This review aspires to enhance the precision of communication in medical AI, thereby fostering more effective and transparent research methodologies in this interdisciplinary field.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 一般化光子サブトラクションによる励起単光子状態のブーピング生成速度

Boosting generation rate of squeezed single-photon states by generalized photon subtraction ( http://arxiv.org/abs/2404.19304v1 )

ライセンス: Link先を確認
Hiroko Tomoda, Akihiro Machinaga, Kan Takase, Jun Harada, Takahiro Kashiwazaki, Takeshi Umeki, Shigehito Miki, Fumihiro China, Masahiro Yabuno, Hirotaka Terai, Daichi Okuno, Shuntaro Takeda, (参考訳) 連続変数を持つ光量子情報処理において、光非ガウス量子状態は普遍的およびフォールトトレラント量子計算に必須である。 実験的に最も典型的な生成法は光子サブトラクション(PS)であり、オン/オフ検出器による単光子検出は、圧縮された単光子状態の生成を確率的に予測する。 しかしPSでは、望ましくない多重光子検出を避けるために、必然的に生成速度を制限し、圧縮された単光子状態の適用を妨げる。 ここでは,PSの単純な拡張である一般化光子サブトラクション(GPS)が生成状態の品質を維持しつつ生成率を向上させることを理論的に示す。 さらに,PSと比較して2dB-および4dB-スクイーズ単一光子状態の生成速度を,特に2dBの場合において1桁以上向上させる実験を行った。 我々の結果は、より高度な量子情報プロトコルへの圧縮された単一光子状態の適用を加速する。

In optical quantum information processing with continuous variables, optical non-Gaussian quantum states are essential for universal and fault-tolerant quantum computation. Experimentally, their most typical generation method is photon subtraction (PS) where single-photon detection by an on/off detector probabilistically heralds the generation of squeezed single-photon states. In PS, however, trying to avoid unwanted multi-photon detection inevitably limits the generation rate, hindering the application of squeezed single-photon states. Here, we theoretically show that generalized photon subtraction (GPS), a simple extension of PS, can improve the generation rate while maintaining the quality of the generated states. Furthermore, we experimentally demonstrate the generation rate improvement for 2 dB- and 4 dB-squeezed single-photon states compared to PS, by more than one order of magnitude particularly for the case of 2 dB. Our results will accelerate the application of squeezed single-photon states to more advanced quantum information protocols.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 総合予測に基づくハイブリッドおよびスタックステートフル/ステートレスモデルの解析

Comprehensive Forecasting-Based Analysis of Hybrid and Stacked Stateful/ Stateless Models ( http://arxiv.org/abs/2404.19306v1 )

ライセンス: Link先を確認
Swayamjit Saha, (参考訳) 風速は再生可能エネルギーの強力な供給源であり、電力生産のための再生不可能な資源の代替として利用することができる。 再生可能エネルギー源はクリーンで無限であり、電気エネルギーの生産中に環境に悪影響を及ぼさない。 しかし、再生可能エネルギーからエネルギーを引き出す一方で、太陽の照度、風速、水力は特別な計画上の失敗を必要とし、システムを構築するための労働力と資金が失われる可能性がある。 本稿では,4つのディープリカレントニューラルネットワークvizについて論じる。 Stacked Stateless LSTM、Stacked Stateless GRU、Stacked Stateful LSTM、Statcked Stateful GRUは、ミシシッピ州立大学の2つのキャンパスの横にある空港の敷地で、短期的に風速を予測するために使用される。 本論文は,それらのアーキテクチャを記述したモデルの性能を包括的に分析し,RMSE値の助けを借りて効率よく結果を導き出す。 上記のモデルの時間と空間の複雑さの詳細な説明も議論されている。

Wind speed is a powerful source of renewable energy, which can be used as an alternative to the non-renewable resources for production of electricity. Renewable sources are clean, infinite and do not impact the environment negatively during production of electrical energy. However, while eliciting electrical energy from renewable resources viz. solar irradiance, wind speed, hydro should require special planning failing which may result in huge loss of labour and money for setting up the system. In this paper, we discuss four deep recurrent neural networks viz. Stacked Stateless LSTM, Stacked Stateless GRU, Stacked Stateful LSTM and Statcked Stateful GRU which will be used to predict wind speed on a short-term basis for the airport sites beside two campuses of Mississippi State University. The paper does a comprehensive analysis of the performance of the models used describing their architectures and how efficiently they elicit the results with the help of RMSE values. A detailed description of the time and space complexities of the above models has also been discussed.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# ディープリンク付きMonkeyによるAndroidアプリのGUI探索カバレッジ向上

Enhancing GUI Exploration Coverage of Android Apps with Deep Link-Integrated Monkey ( http://arxiv.org/abs/2404.19307v1 )

ライセンス: Link先を確認
Han Hu, Han Wang, Ruiqi Dong, Xiao Chen, Chunyang Chen, (参考訳) モバイルアプリは、読書やチャットといったさまざまなタスクをサポートするために、日々の生活の中でユビキタスです。 多くのGUIテストツールが利用可能であるにも関わらず、ツールがループで立ち往生したり、隠されたエントリでアクティビティを見落としたりするため、アプリテスタはコードカバレッジの低さに苦慮している。 結果として、少数のGUIページの冗長かつ反復的な探索に多くのテスト時間が費やされている。 これを解決するために、Androidのディープリンクを使用し、Androidインテントをトリガーしてユーザを特定のページに誘導し、ディープリンク強化探索手法を導入する。 このアプローチはテストツールMonkeyに統合され、Delm(Deep Link-enhanced Monkey)が生まれます。 Delm氏は動的探索プロセスを監督し、ツールを無意味なテストループから探索されていないGUIページへと誘導する。 隠れた入り口でより多くのアクティビティを発見するために、既存のAndroidインテントをトリガーする、厳格なアクティビティコンテキストモックアップアプローチを提供する。 我々は,Delmのアクティビティコンテキストモックアップ,アクティビティカバレッジ,メソッドカバレッジ,クラッシュ検出における有効性を評価する実験を行った。 この結果から、Delmはより複雑なアクティビティコンテキストをモックアップし、27.2\%のアクティビティカバレッジ、21.13\%のメソッドカバレッジ、23.81\%のクラッシュ検出で最先端のベースラインを著しく上回ります。

Mobile apps are ubiquitous in our daily lives for supporting different tasks such as reading and chatting. Despite the availability of many GUI testing tools, app testers still struggle with low testing code coverage due to tools frequently getting stuck in loops or overlooking activities with concealed entries. This results in a significant amount of testing time being spent on redundant and repetitive exploration of a few GUI pages. To address this, we utilize Android's deep links, which assist in triggering Android intents to lead users to specific pages and introduce a deep link-enhanced exploration method. This approach, integrated into the testing tool Monkey, gives rise to Delm (Deep Link-enhanced Monkey). Delm oversees the dynamic exploration process, guiding the tool out of meaningless testing loops to unexplored GUI pages. We provide a rigorous activity context mock-up approach for triggering existing Android intents to discover more activities with hidden entrances. We conduct experiments to evaluate Delm's effectiveness on activity context mock-up, activity coverage, method coverage, and crash detection. The findings reveal that Delm can mock up more complex activity contexts and significantly outperform state-of-the-art baselines with 27.2\% activity coverage, 21.13\% method coverage, and 23.81\% crash detection.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 部分移動モーメントによる絡み合った2量子状態のキャラクタリゼーション

A characterization of entangled two-qubit states via partial-transpose-moments ( http://arxiv.org/abs/2404.19308v1 )

ライセンス: Link先を確認
Lin Zhang, Ming-Jing Zhao, Lin Chen, Hua Xiang, Yi Shen, (参考訳) 量子絡み合いは重要な資源であるが、その特性は非常に難しい。 部分転位は二部体の絡みを検出する一般的な方法である。 本稿では,2量子状態の部分移動(PT)-モーメントと,2量子状態すべてに対する第2および第3のPT-モーメントからなる領域全体を網羅的に記述する。 さらに、すべての絡み合った2ビット状態に対応する正確な領域を決定する。 領域全体の境界点と分離可能な状態と絡み合った状態の境界線に対応する状態を分析する。 応用として、ワーナー状態とベル対角状態の2つの族に対するPTモーメントの絡み合った領域を特徴付ける。 これらの典型的な例から, 絡み合いとPTモーメントの対の関係を明らかにする。 また、2キュービットのX状態すべてに対して可能なPTモーメントの全領域を数値的にプロットし、この領域は2キュービットの全ての状態においてPTモーメントの全体領域とほぼ同じであることを示した。 さらに、多ビット状態の絡み合いを検出するために結果を拡張している。 GHZ と W 状態が混在する多ビット状態の絡み合いを特徴付けるためのPT-moment 法を利用することで、これらの状態における真の絡み合いを検証する運用方法を提案する。

Although quantum entanglement is an important resource, its characterization is quite challenging. The partial transposition is a common method to detect bipartite entanglement. In this paper, the authors study the partial-transpose(PT)-moments of two-qubit states,and completely describe the whole region, composed of the second and third PT-moments, for all two-qubit states. Furthermore, they determine the accurate region corresponding to all entangled two-qubit states. The states corresponding to those boundary points of the whole region, and to the border lines between separable and entangled states are analyzed. As an application, they characterize the entangled region of PT-moments for the two families of Werner states and Bell-diagonal states. The relations between entanglement and the pairs of PT-moments are revealed from these typical examples. They also numerically plot the whole region of possible PT-moments for all two-qubit X-states, and find that this region is almost the same as the whole region of PT-moments for all two-qubit states. Moreover, they extend their results to detect the entanglement of multiqubit states. By utilizing the PT-moment-based method to characterize the entanglement of the multiqubit states mixed by the GHZ and W states, they propose an operational way of verifying the genuine entanglement in such states.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# ウィスパーはスイスドイツ語を理解しているか? 自動的、質的、人的評価

Does Whisper understand Swiss German? An automatic, qualitative, and human evaluation ( http://arxiv.org/abs/2404.19310v1 )

ライセンス: Link先を確認
Eyal Liron Dolev, Clemens Fidel Lutz, Noëmi Aepli, (参考訳) Whisperは最先端の自動音声認識(ASR)モデルである(Radford et al , 2022)。 スイスドイツ語の方言はウィスパーの訓練データには含まれていないと言われているが、予備的な実験により、ウィスパーはスイスドイツ語を非常にうまく書き起こすことができ、その出力は標準ドイツ語への音声翻訳であることが示された。 スイスドイツ語におけるウィスパーのパフォーマンスをよりよく理解するために、我々は、自動的、質的、人的評価を用いて体系的に評価した。 既存の3つのテストセット、SwissDial(Dogan-Sch\onberger et al , 2021)、STT4SG-350(Pl\uss et al , 2023)、Swiss Parliaments Corpus(Pl\uss et al , 2021)でパフォーマンスをテストする。 さらに,本研究のための新しいテストセットを,短い模擬臨床面接に基づいて作成する。 自動評価には単語誤り率(WER)とBLEUを用いた。 質的な分析では、ウィスパーの強みと弱みを論じ、いくつかの出力例を論じる。 人的評価のために,Whisperの評価を依頼された28名の被験者を対象に調査を行った。 我々の評価は、Whisperが標準ドイツの出力が望まれる限り、スイスドイツ人にとって実行可能なASRシステムであることを示唆している。

Whisper is a state-of-the-art automatic speech recognition (ASR) model (Radford et al., 2022). Although Swiss German dialects are allegedly not part of Whisper's training data, preliminary experiments showed that Whisper can transcribe Swiss German quite well, with the output being a speech translation into Standard German. To gain a better understanding of Whisper's performance on Swiss German, we systematically evaluate it using automatic, qualitative, and human evaluation. We test its performance on three existing test sets: SwissDial (Dogan-Sch\"onberger et al., 2021), STT4SG-350 (Pl\"uss et al., 2023), and Swiss Parliaments Corpus (Pl\"uss et al., 2021). In addition, we create a new test set for this work, based on short mock clinical interviews. For automatic evaluation, we used word error rate (WER) and BLEU. In the qualitative analysis, we discuss Whisper's strengths and weaknesses and anylyze some output examples. For the human evaluation, we conducted a survey with 28 participants who were asked to evaluate Whisper's performance. All of our evaluations suggest that Whisper is a viable ASR system for Swiss German, so long as the Standard German output is desired.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 不均一画像のための軽量トランスを用いた自己教師型マッチングネットワーク

A Light-weight Transformer-based Self-supervised Matching Network for Heterogeneous Images ( http://arxiv.org/abs/2404.19311v1 )

ライセンス: Link先を確認
Wang Zhang, Tingting Li, Yuntian Zhang, Gensheng Pei, Xiruo Jiang, Yazhou Yao, (参考訳) 可視光と近赤外線(NIR)画像のマッチングは、リモートセンシング画像融合において重要な課題である。 不均一なリモートセンシング画像間の非線形ラジオメトリック差により、画像マッチング作業はさらに困難になる。 近年、ディープラーニングはコンピュータビジョンタスクに大きな注目を集めている。 しかし、多くの手法は教師付き学習に依存し、大量の注釈付きデータを必要とする。 それでも、アノテーション付きデータはリモートセンシング画像マッチングの分野においてしばしば制限される。 そこで本研究では,自己教師型マッチングネットワークを通じて,ロバストな特徴記述子を求めるキーポイント記述子アプローチを提案する。 LTFormerと呼ばれる軽量トランスフォーマーネットワークは、ディープレベルの特徴記述子を生成するように設計されている。 さらに,新たな三重項損失関数LT Lossを実装し,マッチング性能をさらに向上する。 提案手法は従来の手作りのローカル特徴記述子よりも優れており,注釈付きデータの不足中であっても,最先端のディープラーニングベースの手法と同等に競合することを示す。

Matching visible and near-infrared (NIR) images remains a significant challenge in remote sensing image fusion. The nonlinear radiometric differences between heterogeneous remote sensing images make the image matching task even more difficult. Deep learning has gained substantial attention in computer vision tasks in recent years. However, many methods rely on supervised learning and necessitate large amounts of annotated data. Nevertheless, annotated data is frequently limited in the field of remote sensing image matching. To address this challenge, this paper proposes a novel keypoint descriptor approach that obtains robust feature descriptors via a self-supervised matching network. A light-weight transformer network, termed as LTFormer, is designed to generate deep-level feature descriptors. Furthermore, we implement an innovative triplet loss function, LT Loss, to enhance the matching performance further. Our approach outperforms conventional hand-crafted local feature descriptors and proves equally competitive compared to state-of-the-art deep learning-based methods, even amidst the shortage of annotated data.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 相互情報による量子ニューラルネットワークの動作機構の解明

Revealing the working mechanism of quantum neural networks by mutual information ( http://arxiv.org/abs/2404.19312v1 )

ライセンス: Link先を確認
Xin Zhang, Yuexian Hou, (参考訳) 量子ニューラルネットワーク(QNN)は、勾配に基づくオプティマイザによってトレーニング可能なパラメータ化量子回路モデルであり、教師付き学習、回帰タスク、組合せ最適化などに使用することができる。 多くの研究が、QNNは古典的ニューラルネットワークに比べて学習性、一般化性等が優れていることを示した。 しかし、古典的なニューラルネットワークと同様に、その動作メカニズムをうまく説明できない。 本稿では,相互情報を用いたQNNの学習メカニズムを明らかにする。 ニューラルネットワークにおける従来の相互情報とは異なり、量子コンピューティングは情報を保存するため、相互情報はU演算子の入力と出力を自明にしている。 本研究では,トレーニング中の相互情報の変化を観察するため,量子回路(U演算子)を2つのサブシステム(D)と測定サブシステム(M)に分割する。 I(Di : Mo) と I(Mi : Mo) の2つの相互情報(i と o は対応するサブシステムの入力または出力を意味する)を計算し、トレーニング中の動作を観察する。 エピックが増加するにつれて、I(Di : Mo) は徐々に増加し、これは、捨てサブシステムの情報が測定サブシステムに連続的にプッシュされることを意味するかもしれない。 さらに、I(Mi : Mo)はトレーニングプロセスに2段階の振る舞いが存在します。 第1フェーズI(Mi : Mo)は増加しており、これは測定サブシステムが特徴フィッティングを行うことを意味する。 第2のフェーズI(Mi : Mo)は減少しており、これはシステムが一般化していることを意味し、測定サブシステムはラベル関連情報をできるだけ多くのサブシステムに捨てる。 本研究は,QNNの動作メカニズムを相互情報を用いて考察し,QNNの精度と一般化を解析するためにも利用できることを示した。

Quantum neural networks (QNNs) is a parameterized quantum circuit model, which can be trained by gradient-based optimizer, can be used for supervised learning, regression tasks, combinatorial optimization, etc. Although many works have demonstrated that QNNs have better learnability, generalizability, etc. compared to classical neural networks. However, as with classical neural networks, we still can't explain their working mechanism well. In this paper, we reveal the training mechanism of QNNs by mutual information. Unlike traditional mutual information in neural networks, due to quantum computing remains information conserved, the mutual information is trivial of the input and output of U operator. In our work, in order to observe the change of mutual information during training, we divide the quantum circuit (U operator) into two subsystems, discard subsystem (D) and measurement subsystem (M) respectively. We calculate two mutual information, I(Di : Mo) and I(Mi : Mo) (i and o means input or output of the corresponding subsystem), and observe their behavior during training. As the epochs increases, I(Di : Mo) gradually increases, this may means some information of discard subsystem is continuously pushed into the measurement subsystem, the information should be label-related. What's more, I(Mi : Mo) exist two-phase behavior in training process, this consistent with the information bottleneck anticipation. The first phase, I(Mi : Mo) is increasing, this means the measurement subsystem perform feature fitting. The second phase, I(Mi : Mo) is decreasing, this may means the system is generalizing, the measurement subsystem discard label-irrelevant information into the discard subsystem as many as possible. Our work discussed the working mechanism of QNNs by mutual information, further, it can be used to analyze the accuracy and generalization of QNNs.
翻訳日:2024-05-01 15:14:12 公開日:2024-04-30
# 単分散マイクロドロップレットの高精度化学量子センシング

High-precision chemical quantum sensing in flowing monodisperse microdroplets ( http://arxiv.org/abs/2404.19313v1 )

ライセンス: Link先を確認
Adrisha Sarkar, Zachary Jones, Madhur Parashar, Emanuel Druga, Amala Akkiraju, Sophie Conti, Pranav Krishnamoorthi, Srisai Nachuri, Parker Aman, Mohammad Hashemi, Nicholas Nunn, Marco Torelli, Benjamin Gilbert, Kevin R. Wilson, Olga Shenderova, Deepti Tanjore, Ashok Ajoy, (参考訳) 本稿では, 液滴マイクロ流体学と量子センシングを統合した, 高精度化学検出のための新しいフローベース手法について報告する。 我々は, 蛍光性窒素空孔欠陥を量子センサとするナノダイアモンド粒子を, 触媒分子を含む単分散, ピコリットル体積マイクロドロップレットに配置した。 これらのマイクロコンパートメント内のND運動は、密接なセンサー・アナリテート相互作用を促進し、粒子の不均一性を緩和する。 マイクロドロップレット流量は急速(最大4cm/s)で、ドリフトは最小限である。 NV電子スピンのマイクロ波制御により制御されたこの流れを呈し, 化学分析に敏感な光磁気共鳴の新しいノイズ抑制モードを導入し, 実験変動に対して耐性を持ち, 触媒誘起信号の検出をND蛍光の数百分の1という前例のないレベルに達成した。 本研究は, 検出限界が低く, 分析量が少ない液滴中の常磁性イオンの検出への応用を, 既存の技術よりもはるかに優れた方法で実証するものである。 これは、センサーの量を最小限に抑え、低NDコスト(1時間の動作で0.70ドル)を発生させながら、103s以上の例外的な測定安定性と数十万の液滴にまたがる。 さらに, これらの液滴を単一細胞を含む分析液を用いたND量子センサの共カプセル化により, マイクロコンフィニメントチャンバーとして用いることを実証した。 この汎用性は、単一細胞代謝学やバイオリアクターのリアルタイム細胞内測定のような幅広い応用を示唆している。 我々の研究は、ポータブルで高感度で増幅不要な化学測定法を高いスループットで実現し、マイクロ環境下での化学反応を探索するための新しい化学イメージングツールを導入し、液滴マイクロ流体による可動配列量子センサーの開発の基礎を確立した。

We report on a novel flow-based method for high-precision chemical detection that integrates quantum sensing with droplet microfluidics. We deploy nanodiamond particles hosting fluorescent nitrogen vacancy defects as quantum sensors in flowing, monodisperse, picoliter-volume microdroplets containing analyte molecules. ND motion within these microcompartments facilitates close sensor-analyte interaction and mitigates particle heterogeneity. Microdroplet flow rates are rapid (upto 4cm/s) and with minimal drift. Pairing this controlled flow with microwave control of NV electronic spins, we introduce a new noise-suppressed mode of Optically Detected Magnetic Resonance that is sensitive to chemical analytes while resilient against experimental variations, achieving detection of analyte-induced signals at an unprecedented level of a few hundredths of a percent of the ND fluorescence. We demonstrate its application to detecting paramagnetic ions in droplets with simultaneously low limit-of-detection and low analyte volumes, in a manner significantly better than existing technologies. This is combined with exceptional measurement stability over >103s and across hundreds of thousands of droplets, while utilizing minimal sensor volumes and incurring low ND costs (<$0.70 for an hour of operation). Additionally, we demonstrate using these droplets as micro-confinement chambers by co-encapsulating ND quantum sensors with analytes, including single cells. This versatility suggests wide-ranging applications, like single-cell metabolomics and real-time intracellular measurements in bioreactors. Our work paves the way for portable, high-sensitivity, amplification-free, chemical assays with high throughput; introduces a new chemical imaging tool for probing chemical reactions in microenvironments; and establishes the foundation for developing movable, arrayed quantum sensors through droplet microfluidics.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# オクシタン方言のオーソグラフィー変化のモデル化

Modeling Orthographic Variation in Occitan's Dialects ( http://arxiv.org/abs/2404.19315v1 )

ライセンス: Link先を確認
Zachary William Hopton, Noëmi Aepli, (参考訳) テキストデータの効果的な正規化は、特に標準化された書き込みシステムに欠ける低リソース言語では、大きな課題となる。 本研究では,複数のオクシタン方言のデータを用いた多言語モデルを微調整し,これらの方言のモデル表現を評価する一連の実験を行った。 評価のために,オクシタン方言を4つ含む並列辞書を作成した。 モデル埋め込みの本質的な評価により、方言間の表面的類似性は表現を強めた。 このモデルが、部分音声タグ付けとユニバーサル依存解析のためにさらに微調整されたとき、その性能は、単一の方言から部分音声データのみを訓練しても、方言の変動に対して頑健であった。 以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。

Effectively normalizing textual data poses a considerable challenge, especially for low-resource languages lacking standardized writing systems. In this study, we fine-tuned a multilingual model with data from several Occitan dialects and conducted a series of experiments to assess the model's representations of these dialects. For evaluation purposes, we compiled a parallel lexicon encompassing four Occitan dialects. Intrinsic evaluations of the model's embeddings revealed that surface similarity between the dialects strengthened representations. When the model was further fine-tuned for part-of-speech tagging and Universal Dependency parsing, its performance was robust to dialectical variation, even when trained solely on part-of-speech data from a single dialect. Our findings suggest that large multilingual models minimize the need for spelling normalization during pre-processing.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# QLSC:ロバスト抽出質問回答のためのクエリ遅延セマンティックキャリブレータ

QLSC: A Query Latent Semantic Calibrator for Robust Extractive Question Answering ( http://arxiv.org/abs/2404.19316v1 )

ライセンス: Link先を確認
Sheng Ouyang, Jianzong Wang, Yong Zhang, Zhitao Li, Ziqi Liang, Xulong Zhang, Ning Cheng, Jing Xiao, (参考訳) 機械読解理解(MRC)における抽出質問回答(EQA)は、意味論的に同一だが形式的な入力を扱うという課題に直面していることが多い。 我々の研究は '`Query Latent Semantic Calibrator (QLSC)'' と呼ばれる新しいアプローチを導入し、既存のMCCモデルの補助モジュールとして設計した。 本稿では,クエリの潜在的セマンティックセンター特徴を捉えるためのユニークなスケーリング戦略を提案する。 これらの機能は、アテンションメカニズムを使用して、従来のクエリとパスの埋め込みにシームレスに統合される。 セマンティッククエリー・パス関係の理解を深めることにより、本手法はテキスト形式の変化に対する感度を低下させ、正確な回答をピンポイントするモデルの能力を高める。 頑健な質問応答データセットによる実験結果から,提案手法の有効性と適応性を明らかにするとともに,提案手法は形式的だが意味的に同一なクエリを効果的に処理することを確認した。

Extractive Question Answering (EQA) in Machine Reading Comprehension (MRC) often faces the challenge of dealing with semantically identical but format-variant inputs. Our work introduces a novel approach, called the ``Query Latent Semantic Calibrator (QLSC)'', designed as an auxiliary module for existing MRC models. We propose a unique scaling strategy to capture latent semantic center features of queries. These features are then seamlessly integrated into traditional query and passage embeddings using an attention mechanism. By deepening the comprehension of the semantic queries-passage relationship, our approach diminishes sensitivity to variations in text format and boosts the model's capability in pinpointing accurate answers. Experimental results on robust Question-Answer datasets confirm that our approach effectively handles format-variant but semantically identical queries, highlighting the effectiveness and adaptability of our proposed method.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# N-Gramモデルの再検討:手書き文字認識における現代のニューラルネットワークへの影響

Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition ( http://arxiv.org/abs/2404.19317v1 )

ライセンス: Link先を確認
Solène Tarride, Christopher Kermorvant, (参考訳) 近年のATR(Automatic Text Recognition)では、ディープニューラルネットワークが言語統計を暗黙的にキャプチャする能力を示しており、従来の言語モデルの必要性を減らしている可能性がある。 本研究は,言語モデル,特にn-gramモデルが,手書き認識の分野における最先端のディープラーニングアーキテクチャの性能に寄与するかどうかを直接的に論じる。 我々は、明示的なn-gram言語モデルを統合することなく、2つの著名なニューラルネットワークアーキテクチャ、PyLaiaとDANを評価した。 IAM,RIMES,NorHand v2の3つのデータセットについて,行数,重み,平滑化メソッド,トークン化レベルを含むn-gramモデルの最適パラメータについて検討した。 その結果,文字やサブワードのn-gramモデルの導入は,すべてのデータセット上でのATRモデルの性能を著しく向上させることがわかった。 特に、DANと文字言語モデルの組み合わせは現在のベンチマークよりも優れており、現代の文書分析システムにおけるハイブリッドアプローチの価値を確認している。

In recent advances in automatic text recognition (ATR), deep neural networks have demonstrated the ability to implicitly capture language statistics, potentially reducing the need for traditional language models. This study directly addresses whether explicit language models, specifically n-gram models, still contribute to the performance of state-of-the-art deep learning architectures in the field of handwriting recognition. We evaluate two prominent neural network architectures, PyLaia and DAN, with and without the integration of explicit n-gram language models. Our experiments on three datasets - IAM, RIMES, and NorHand v2 - at both line and page level, investigate optimal parameters for n-gram models, including their order, weight, smoothing methods and tokenization level. The results show that incorporating character or subword n-gram models significantly improves the performance of ATR models on all datasets, challenging the notion that deep learning models alone are sufficient for optimal performance. In particular, the combination of DAN with a character language model outperforms current benchmarks, confirming the value of hybrid approaches in modern document analysis systems.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# 校正信頼スコアを用いたLCM生成コードサプライヤーの信頼度向上

Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores ( http://arxiv.org/abs/2404.19318v1 )

ライセンス: Link先を確認
Yuvraj Virk, Premkumar Devanbu, Toufique Ahmed, (参考訳) 優れた要約は、しばしばプログラムの理解において非常に有用である。 簡潔で、流動的で、関連する要約は役に立つが、生産にはかなりの人的努力が必要である。 多くの場合、ソフトウェアプロジェクトでは優れた要約が利用できないため、メンテナンスがより困難になる。 コードの要約を生成するためにLarge Language Model(LLMs)を使用する自動AIベースの手法について、かなりの研究が続けられている。 BERTScore(英語版)やBLEU(英語版)などの対策が提案され、人体実験で評価されている。 しかし、LSMは人間が言うようなものとはかなり異なるものを生成します。 LLMが生成したコード要約を考えると、それが人間が生成した要約と十分に類似しているかどうかを判断する方法はあるだろうか? 本稿では, キャリブレーション問題として, LLM の要約から, 信頼度を計算できるかどうかを考察する。これは, 人間がこの状況で生み出したものと十分に類似しているかどうかを示す良い指標である。 いくつかのLLM、複数の言語、いくつかの異なる設定でこの問題について検討する。 本稿では,ヒトの要約と類似性の可能性について,よく校正された予測を提供するアプローチを提案する。

A good summary can often be very useful during program comprehension. While a brief, fluent, and relevant summary can be helpful, it does require significant human effort to produce. Often, good summaries are unavailable in software projects, thus making maintenance more difficult. There has been a considerable body of research into automated AI-based methods, using Large Language models (LLMs), to generate summaries of code; there also has been quite a bit work on ways to measure the performance of such summarization methods, with special attention paid to how closely these AI-generated summaries resemble a summary a human might have produced. Measures such as BERTScore and BLEU have been suggested and evaluated with human-subject studies. However, LLMs often err and generate something quite unlike what a human might say. Given an LLM-produced code summary, is there a way to gauge whether it's likely to be sufficiently similar to a human produced summary, or not? In this paper, we study this question, as a calibration problem: given a summary from an LLM, can we compute a confidence measure, which is a good indication of whether the summary is sufficiently similar to what a human would have produced in this situation? We examine this question using several LLMs, for several languages, and in several different settings. We suggest an approach which provides well-calibrated predictions of likelihood of similarity to human summaries.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# 固定(計算)予算下におけるスクラッチからの知識蒸留と事前学習

Knowledge Distillation vs. Pretraining from Scratch under a Fixed (Computation) Budget ( http://arxiv.org/abs/2404.19319v1 )

ライセンス: Link先を確認
Minh Duc Bui, Fabian David Schmidt, Goran Glavaš, Katharina von der Wense, (参考訳) 標準言語モデル(LM)の事前訓練(例えば、スクラッチから)と比較して、知識蒸留(KD)は、典型的には対象の学生モデルよりもかなり大きい教師モデルを通る追加のフォワードパスを必要とする。 このように、LMプレトレーニングにおけるKDは、スクラッチから事前トレーニングする事前トレーニングインスタンスのスループットを著しく遅くする。 LM事前トレーニングの法則のスケーリングにより、より小さなモデルでは、より多くのデータ(例えば、より多くのトークンを処理する)で訓練された場合、より大きなモデルとのギャップを埋めることが可能であり、固定された計算予算の下では、より小さなモデルはより大きなモデルよりも多くのデータを処理することができる。 そこで我々は,計算予算を適切に考慮すれば,KD がスクラッチから事前学習に最適である,という仮説を立てた。 これをテストするために,マスク付き言語モデリング(MLM)のいくつかのKD戦略を,計算量や事前学習データに関して,公平な実験で比較した。 しかし、GLUEのダウンストリームの結果は、スクラッチからの事前トレーニングは、固定された計算予算の下で通常のKDと同等に実行されるが、より洗練されたKD戦略であるTinyBERT(Jiao et al , 2020)とMiniLM(Wang et al , 2023)は、顕著なマージンでそれを上回ります。 さらに、KDは、固定された計算予算の下でデータを繰り返す必要がある場合、スクラッチから事前学習よりも大きなゲインを得る。

Compared to standard language model (LM) pretraining (i.e., from scratch), Knowledge Distillation (KD) entails an additional forward pass through a teacher model that is typically substantially larger than the target student model. As such, KD in LM pretraining materially slows down throughput of pretraining instances vis-a-vis pretraining from scratch. Scaling laws of LM pretraining suggest that smaller models can close the gap to larger counterparts if trained on more data (i.e., processing more tokens)-and under a fixed computation budget, smaller models are able be process more data than larger models. We thus hypothesize that KD might, in fact, be suboptimal to pretraining from scratch for obtaining smaller LMs, when appropriately accounting for the compute budget. To test this, we compare pretraining from scratch against several KD strategies for masked language modeling (MLM) in a fair experimental setup, with respect to amount of computation as well as pretraining data. Downstream results on GLUE, however, do not confirm our hypothesis: while pretraining from scratch performs comparably to ordinary KD under a fixed computation budget, more sophisticated KD strategies, namely TinyBERT (Jiao et al., 2020) and MiniLM (Wang et al., 2023), outperform it by a notable margin. We further find that KD yields larger gains over pretraining from scratch when the data must be repeated under the fixed computation budget.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# LVOS: 大規模ビデオオブジェクトセグメンテーションのためのベンチマーク

LVOS: A Benchmark for Large-scale Long-term Video Object Segmentation ( http://arxiv.org/abs/2404.19326v1 )

ライセンス: Link先を確認
Lingyi Hong, Zhongying Liu, Wenchao Chen, Chenzhi Tan, Yuang Feng, Xinyu Zhou, Pinxue Guo, Jinglun Li, Zhaoyu Chen, Shuyong Gao, Wei Zhang, Wenqiang Zhang, (参考訳) ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内のターゲットオブジェクトの識別と追跡を目的としている。 既製のVOSモデルによって達成された優れたパフォーマンスにもかかわらず、既存のVOSベンチマークは主に5秒間の短いビデオに焦点を合わせている。 しかし、これらのベンチマークは実用性に乏しく、長期的なデータセットがないため、現実的なシナリオにおけるVOSのさらなる研究が制限される。 そこで,296,401フレームの720の動画と407,945の高品質アノテーションからなるLVOSという新しいベンチマークを提案する。 LVOSのビデオは平均1.14分であり、既存のデータセットのビデオの約5倍の長さである。 それぞれのビデオには様々な属性が含まれており、特に長期的な再出現や時間横断的な類似の物体など、野生から派生した課題がある。 以前のベンチマークと比較すると、我々のLVOSは実シナリオでのVOSモデルのパフォーマンスをよりよく反映しています。 LVOSに基づいて、4つの異なる条件下で20種類の既存のVOSモデルを評価し、包括的な分析を行う。 LVOSでは、これらのモデルは大きなパフォーマンス低下を被り、現実世界のシナリオで正確なトラッキングとセグメンテーションを達成するという課題を浮き彫りにしている。 属性に基づく分析は、精度低下の鍵となる要因がビデオ長の増加であり、LVOSの重要な役割を強調していることを示している。 LVOSが実際の場面でVOSの開発を進めることを願っています。 データとコードはhttps://lingyihongfd.github.io/lvos.github.io/で公開されている。

Video object segmentation (VOS) aims to distinguish and track target objects in a video. Despite the excellent performance achieved by off-the-shell VOS models, existing VOS benchmarks mainly focus on short-term videos lasting about 5 seconds, where objects remain visible most of the time. However, these benchmarks poorly represent practical applications, and the absence of long-term datasets restricts further investigation of VOS in realistic scenarios. Thus, we propose a novel benchmark named LVOS, comprising 720 videos with 296,401 frames and 407,945 high-quality annotations. Videos in LVOS last 1.14 minutes on average, approximately 5 times longer than videos in existing datasets. Each video includes various attributes, especially challenges deriving from the wild, such as long-term reappearing and cross-temporal similar objects. Compared to previous benchmarks, our LVOS better reflects VOS models' performance in real scenarios. Based on LVOS, we evaluate 20 existing VOS models under 4 different settings and conduct a comprehensive analysis. On LVOS, these models suffer a large performance drop, highlighting the challenge of achieving precise tracking and segmentation in real-world scenarios. Attribute-based analysis indicates that key factor to accuracy decline is the increased video length, emphasizing LVOS's crucial role. We hope our LVOS can advance development of VOS in real scenes. Data and code are available at https://lingyihongfd.github.io/lvos.github.io/.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# Cognate Synonym Selectionにおける主観性統合のための計算的アプローチ

Computational Approaches for Integrating out Subjectivity in Cognate Synonym Selection ( http://arxiv.org/abs/2404.19328v1 )

ライセンス: Link先を確認
Luise Häuser, Gerhard Jäger, Alexandros Stamatakis, (参考訳) コグネートデータを扱うには、同義語、つまり言語で同じ概念を記述する複数の単語を扱う必要がある。 言語系統学の初期において、一つの同義語のみを選択することが推奨された。 しかし、ここで示すように、計算手法の入力として使用されるバイナリ文字行列は、すべての同義語を含むデータセット全体を表現することができる。 ここでは、どのようにしてすべての同義語を含めるべきか、あるいは前科を選択すべきかどうかという疑問に対処する。 この目的のために、広く使われているRAxML-NGツールを用いて最大木推定を行い、すべての同義語を入力として使用する場合に可塑性木を生成することを示す。 さらに, 前代同義語選択は, トポロジカルに大きく異なる木を産出できることを示す。 すべての同義語を含む同義語データを表現するために、確率的二元数行列と確率的多値文字行列という、標準的な二元数行列以外の2種類の文字行列を導入する。 さらに, 推定されたRAxML-NG木がゴールド標準に最も近いキャラクタリマトリクスは, データセット依存であることを示す。 また、CLDFフォーマットで提供されるコグネートデータに対して、上記のすべてのキャラクタマトリックスタイプを生成するためのPythonインターフェースも提供しています。

Working with cognate data involves handling synonyms, that is, multiple words that describe the same concept in a language. In the early days of language phylogenetics it was recommended to select one synonym only. However, as we show here, binary character matrices, which are used as input for computational methods, do allow for representing the entire dataset including all synonyms. Here we address the question how one can and if one should include all synonyms or whether it is preferable to select synonyms a priori. To this end, we perform maximum likelihood tree inferences with the widely used RAxML-NG tool and show that it yields plausible trees when all synonyms are used as input. Furthermore, we show that a priori synonym selection can yield topologically substantially different trees and we therefore advise against doing so. To represent cognate data including all synonyms, we introduce two types of character matrices beyond the standard binary ones: probabilistic binary and probabilistic multi-valued character matrices. We further show that it is dataset-dependent for which character matrix type the inferred RAxML-NG tree is topologically closest to the gold standard. We also make available a Python interface for generating all of the above character matrix types for cognate data provided in CLDF format.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# 手書き文書におけるエンドツーエンドの情報抽出:1880年から1940年までのパリ結婚記録の理解

End-to-end information extraction in handwritten documents: Understanding Paris marriage records from 1880 to 1940 ( http://arxiv.org/abs/2404.19329v1 )

ライセンス: Link先を確認
Thomas Constum, Lucas Preel, Théo Larcher, Pierrick Tranouez, Thierry Paquet, Sandra Brée, (参考訳) EXO-POPPプロジェクトは、1880年から1940年にかけて、パリとその郊外の30万件の結婚記録を含む包括的なデータベースの構築を目指している。 それぞれの結婚記録は、プレーンテキストからの抽出を必要とする118種類の異なる情報を含むことができる。 本稿では,M-POPPデータベースのサブセットであるM-POPPデータセットを紹介する。 本稿では,DANをベースとした完全なエンドツーエンドアーキテクチャを提案する。手書き文字認識とページイメージから直接情報抽出を,明示的なセグメンテーションを必要とせずに行うように設計されている。 本稿では,Esposalles上の全ページ情報抽出のための新しい最先端技術を実現することで,このアーキテクチャの情報抽出能力を実証し,M-POPPデータセットのベースラインとして利用する。 また、テキスト中の名前付きエンティティの異なるエンコーディング戦略が、手書きテキストの認識と情報抽出のパフォーマンスに与える影響をフルページから評価・比較する。

The EXO-POPP project aims to establish a comprehensive database comprising 300,000 marriage records from Paris and its suburbs, spanning the years 1880 to 1940, which are preserved in over 130,000 scans of double pages. Each marriage record may encompass up to 118 distinct types of information that require extraction from plain text. In this paper, we introduce the M-POPP dataset, a subset of the M-POPP database with annotations for full-page text recognition and information extraction in both handwritten and printed documents, and which is now publicly available. We present a fully end-to-end architecture adapted from the DAN, designed to perform both handwritten text recognition and information extraction directly from page images without the need for explicit segmentation. We showcase the information extraction capabilities of this architecture by achieving a new state of the art for full-page Information Extraction on Esposalles and we use this architecture as a baseline for the M-POPP dataset. We also assess and compare how different encoding strategies for named entities in the text affect the performance of jointly recognizing handwritten text and extracting information, from full pages.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# G2LTraj: 軌道予測のためのグローバル・ローカル・ジェネレーションアプローチ

G2LTraj: A Global-to-Local Generation Approach for Trajectory Prediction ( http://arxiv.org/abs/2404.19330v1 )

ライセンス: Link先を確認
Zhanwei Zhang, Zishuo Hua, Minghao Chen, Wei Lu, Binbin Lin, Deng Cai, Wenxiao Wang, (参考訳) 交通機関の将来の軌跡を予測することは、自動運転などの様々な応用において、正確には重要な意味を持つ。 従来の方法は、エージェントのすべての将来のステップを再帰的にまたは同時に推測する。 しかし、再帰的戦略は累積誤差に悩まされる一方、同時戦略は将来のステップ間の制約を見落とし、運動学的に不可能な予測をもたらす。 これらの問題に対処するために,我々はG2LTrajを提案する。 具体的には、将来の時間範囲全体を均一にカバーする一連のグローバルなキーステップを生成します。 その後、隣接するキーステップ間の局所中間ステップを再帰的に充填する。 このようにして、累積誤差が隣接するキーステップを超えて伝播するのを防ぐ。 さらに, 運動可能性を高めるために, キーステップ間の空間的制約を導入するだけでなく, 中間ステップ間の時間的制約も強化する。 最後に、キーステップの最適粒度を確保するために、予測された各軌道に対応する選択可能な粒度戦略を設計する。 我々のG2LTrajは、ETH、UCY、nuScenesデータセットにまたがる7つの既存の軌道予測器の性能を大幅に改善します。 実験の結果、その効果が示された。 コードはhttps://github.com/Zhanwei-Z/G2LTraj.comで入手できる。

Predicting future trajectories of traffic agents accurately holds substantial importance in various applications such as autonomous driving. Previous methods commonly infer all future steps of an agent either recursively or simultaneously. However, the recursive strategy suffers from the accumulated error, while the simultaneous strategy overlooks the constraints among future steps, resulting in kinematically infeasible predictions. To address these issues, in this paper, we propose G2LTraj, a plug-and-play global-to-local generation approach for trajectory prediction. Specifically, we generate a series of global key steps that uniformly cover the entire future time range. Subsequently, the local intermediate steps between the adjacent key steps are recursively filled in. In this way, we prevent the accumulated error from propagating beyond the adjacent key steps. Moreover, to boost the kinematical feasibility, we not only introduce the spatial constraints among key steps but also strengthen the temporal constraints among the intermediate steps. Finally, to ensure the optimal granularity of key steps, we design a selectable granularity strategy that caters to each predicted trajectory. Our G2LTraj significantly improves the performance of seven existing trajectory predictors across the ETH, UCY and nuScenes datasets. Experimental results demonstrate its effectiveness. Code will be available at https://github.com/Zhanwei-Z/G2LTraj.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# スライド画像の病理組織学におけるマルチスケール不均一性を考慮したハイパーグラフ表現法

Multi-Scale Heterogeneity-Aware Hypergraph Representation for Histopathology Whole Slide Images ( http://arxiv.org/abs/2404.19334v1 )

ライセンス: Link先を確認
Minghao Han, Xukun Zhang, Dingkang Yang, Tao Liu, Haopeng Kuang, Jinghui Feng, Lihua Zhang, (参考訳) 生存予測(Survival prediction)は、患者のスライド画像全体を分析することで達成される、患者のコホート内の生存係数のランク付けを予測することを目的とした複雑な順序回帰タスクである。 既存のディープラーニングアプローチは主に、弱監督下で複数のインスタンス学習またはグラフニューラルネットワークを採用する。 それらの多くは、様々な種類の生物学的実体(\textit{e g }、細胞クラスター、組織ブロック)間の様々な相互作用を複数のスケールで発見することができず、そのような相互作用は患者の生存予測に不可欠である。 そこで本研究では,マルチスケールなヘテロジニティ対応ハイパーグラフ表現フレームワークを提案する。 具体的には,まずマルチスケールなヘテロジニティを意識したハイパーグラフを構築し,それぞれのノードにその生物学的実体型を割り当てる。 その後、グラフ構造上のノード間の多様な相互作用をマイニングし、グローバルな表現を得る。 実験結果から,本手法は3つのベンチマークデータセットの最先端手法よりも優れていることが示された。 コードは \href{https://github.com/Hanminghao/H2GT}{https://github.com/Hanminghao/H2GT} で公開されている。

Survival prediction is a complex ordinal regression task that aims to predict the survival coefficient ranking among a cohort of patients, typically achieved by analyzing patients' whole slide images. Existing deep learning approaches mainly adopt multiple instance learning or graph neural networks under weak supervision. Most of them are unable to uncover the diverse interactions between different types of biological entities(\textit{e.g.}, cell cluster and tissue block) across multiple scales, while such interactions are crucial for patient survival prediction. In light of this, we propose a novel multi-scale heterogeneity-aware hypergraph representation framework. Specifically, our framework first constructs a multi-scale heterogeneity-aware hypergraph and assigns each node with its biological entity type. It then mines diverse interactions between nodes on the graph structure to obtain a global representation. Experimental results demonstrate that our method outperforms state-of-the-art approaches on three benchmark datasets. Code is publicly available at \href{https://github.com/Hanminghao/H2GT}{https://github.com/Hanminghao/H2GT}.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# StablePT:入力分離によるFew-shot学習のための安定的プロンプトを目指して

StablePT: Towards Stable Prompting for Few-shot Learning via Input Separation ( http://arxiv.org/abs/2404.19335v1 )

ライセンス: Link先を確認
Xiaoming Liu, Chen Liu, Zhaohan Zhang, Chengzhengxu Li, Longtian Wang, Yu Lan, Chao Shen, (参考訳) 大規模言語モデルは、データ不足による学習のパラダイムを推進し、再帰することで、効果的な数ショット学習者になる能力を示している。 しかし、このアプローチは素早い初期化の質に大きく依存しており、常に異なる実行時間間で大きな変動を示す。 このような特性により、プロンプトは信頼性が高く、貧弱なプロンプトに対して脆弱になり、より現実的なアプリケーションへの拡張が制限される。 この問題に対処するため、我々はハードプロンプトとソフトプロンプトを個別の入力として扱い、プロンプト初期化によるノイズを軽減することを提案する。 さらに、学習過程におけるクラス認識情報を利用してモデル性能を維持するために、コントラスト学習によるソフトプロンプトを最適化する。 実験結果から,<sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname</sysname さらに、広範な実験は、さまざまなタスクをカバーする7つのデータセットの堅牢性と安定性を強調している。

Large language models have shown their ability to become effective few-shot learners with prompting, revoluting the paradigm of learning with data scarcity. However, this approach largely depends on the quality of prompt initialization, and always exhibits large variability among different runs. Such property makes prompt tuning highly unreliable and vulnerable to poorly constructed prompts, which limits its extension to more real-world applications. To tackle this issue, we propose to treat the hard prompt and soft prompt as separate inputs to mitigate noise brought by the prompt initialization. Furthermore, we optimize soft prompts with contrastive learning for utilizing class-aware information in the training process to maintain model performance. Experimental results demonstrate that \sysname outperforms state-of-the-art methods by 7.20% in accuracy and reduces the standard deviation by 2.02 on average. Furthermore, extensive experiments underscore its robustness and stability across 7 datasets covering various tasks.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# 誤り関係のプロンプトへの統合による論理誤差のLLM分類の改善

Improving LLM Classification of Logical Errors by Integrating Error Relationship into Prompts ( http://arxiv.org/abs/2404.19336v1 )

ライセンス: Link先を確認
Yanggyu Lee, Suchae Jeong, Jihie Kim, (参考訳) プログラミング構文の理解において訓練されたLLMは、現在、開発者に効果的な支援を提供しており、コーディング問題の生成やコード説明の提供など、プログラミング教育で使用されている。 プログラミング教育の重要な側面は、エラーメッセージの理解と処理である。 しかし、プログラムがプログラマの意図に反して動作している「論理エラー」は、コンパイラからエラーメッセージを受け取らない。 本研究では,プログラムエラーに関する既存の研究に基づいて,プログラミング全般において発生する論理的エラーの種類をまず定義する。 本定義に基づき, チェーン・オブ・ソート・ツリー・オブ・ソート・プロンプトにおけるエラータイプ間の関係を利用したLLMを用いた論理誤差検出手法を提案する。 実験結果から, プロンプトにおける論理的誤り記述を用いた場合, 平均等差性能は, それらのないものよりも約21%高いことがわかった。 また,LLMを用いた新しい論理的誤りデータセットの生成において,エラー間の関係を利用した実験を行った。 論理的エラーに対するデータセットが非常に限られているため、このようなベンチマークデータセットは、様々なプログラミング関連のアプリケーションに非常に有用である。 私たちは、初心者プログラマがコードエラーの原因を特定し、より効果的に修正できることを期待しています。

LLMs trained in the understanding of programming syntax are now providing effective assistance to developers and are being used in programming education such as in generation of coding problem examples or providing code explanations. A key aspect of programming education is understanding and dealing with error message. However, 'logical errors' in which the program operates against the programmer's intentions do not receive error messages from the compiler. In this study, building on existing research on programming errors, we first define the types of logical errors that can occur in programming in general. Based on the definition, we propose an effective approach for detecting logical errors with LLMs that makes use of relations among error types in the Chain-of-Thought and Tree-of-Thought prompts. The experimental results indicate that when such logical error descriptions in the prompt are used, the average classifition performance is about 21% higher than the ones without them. We also conducted an experiment for exploiting the relations among errors in generating a new logical error dataset using LLMs. As there is very limited dataset for logical errors such benchmark dataset can be very useful for various programming related applications. We expect that our work can assist novice programmers in identifying the causes of code errors and correct them more effectively.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# デジタル建築文書の長期使用性を考慮した表現情報リポジトリの設計

Design of a Representation Information Repository for the Long-Term Usability of Digital Building Documents ( http://arxiv.org/abs/2404.19337v1 )

ライセンス: Link先を確認
Uwe M. Borghoff, Eberhard Pfeiffer, Peter Rödig, (参考訳) デジタルビルディング文書の長期使用性は、インフラポートフォリオの保守と最適化に不可欠である。 建物固有の知識の保存と、内部に隠された文化遺産を支えている。 しかしながら、建物のライフサイクル全体(あるいは無期限でさえ)を通じてこれを行わなければならないことは、依然として大きな課題です。 これは、公共行政やアーカイブなど、大規模なデジタル建築文書の収集に責任を負う組織に特に当てはまる。 本稿では,まず,保存作業に関連する課題と要件について述べるとともに,BIM(Building Information Modeling)におけるいわゆる表現情報の概念を紹介する。 このタイプの情報は、特定のコミュニティのために格納されたビットシーケンスに意味を与えるために重要である。 そこで我々は,表現情報のためのレポジトリを設計し,いわゆる23BIMcoreコンテンツ要素を導入する。 最後に, BIM と建設セクターに着目し,ISO 参照モデル OAIS (Open Archival Information System) で導入された2つの概念,すなわち表現情報と文脈情報,さらには OAIS で明示的にモデル化されていない重要な特性の概念の実装に,提案するリポジトリをどのように利用することができるかを説明する。

The long-term usability of digital building documents is essential for the maintenance and optimization of infrastructure portfolios. It supports the preservation of building-specific knowledge and the cultural heritage hidden within. However, having to do this throughout the lifecycle of a building - or even indefinitely - remains a major challenge. This is especially true for organizations responsible for large collections of digital building documents, such as public administrations or archives. In this article, we first describe the challenges and requirements associated with preservation tasks, and then introduce the concept of so-called representation information within BIM (Building Information Modeling). This type of information is important to give meaning to the stored bit sequences for a particular community. Then, we design a repository for representation information and introduce some so-called 23 BIMcore content elements. Finally, we focus on BIM and the construction sector and explain how the proposed repository can be used to implement the two concepts introduced in the ISO reference model OAIS (Open Archival Information System), namely the representation information and the context information, as well as the concept of significant properties, which has not yet been explicitly modeled in OAIS.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# 信頼感か欺きか? : CNNにおける滑らかな視覚説明のためのGated機能の検討

Reliable or Deceptive? Investigating Gated Features for Smooth Visual Explanations in CNNs ( http://arxiv.org/abs/2404.19341v1 )

ライセンス: Link先を確認
Soham Mitra, Atri Sukul, Swalpa Kumar Roy, Pravendra Singh, Vinay Verma, (参考訳) ディープラーニングモデルは、さまざまな領域で顕著な成功を収めています。 しかしながら、これらのモデルの複雑な性質は、意思決定プロセスの明確な理解を妨げることが多い。 ここで説明可能なAI(XAI)が不可欠になり、モデル決定の直感的な説明を提供する。 本研究では,視覚的説明可能性向上のためのScoreCAM法の改良を目的とした,シンプルで高効率なScoreCAM++を提案する。 提案手法は,ScoreCAMで使用される活性化層内での正規化関数の変更を伴い,その結果,従来よりも大幅に改善された。 さらに,アクティベーション関数をアップサンプリングされたアクティベーション層に適用し,解釈可能性を高める。 この改善は、活性化層内の低優先度値を選択的にゲーティングすることで達成される。 より広範な実験と定性比較により、ScoreCAM++は、ScoreCAMと従来の手法と比較して、意思決定プロセスの解釈において、優れた性能と公平性を一貫して達成していることを示す。

Deep learning models have achieved remarkable success across diverse domains. However, the intricate nature of these models often impedes a clear understanding of their decision-making processes. This is where Explainable AI (XAI) becomes indispensable, offering intuitive explanations for model decisions. In this work, we propose a simple yet highly effective approach, ScoreCAM++, which introduces modifications to enhance the promising ScoreCAM method for visual explainability. Our proposed approach involves altering the normalization function within the activation layer utilized in ScoreCAM, resulting in significantly improved results compared to previous efforts. Additionally, we apply an activation function to the upsampled activation layers to enhance interpretability. This improvement is achieved by selectively gating lower-priority values within the activation layer. Through extensive experiments and qualitative comparisons, we demonstrate that ScoreCAM++ consistently achieves notably superior performance and fairness in interpreting the decision-making process compared to both ScoreCAM and previous methods.
翻訳日:2024-05-01 15:04:27 公開日:2024-04-30
# オフライン強化学習におけるマルチタスクデータ共有のための悲観的価値反復

Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning ( http://arxiv.org/abs/2404.19346v1 )

ライセンス: Link先を確認
Chenjia Bai, Lingxiao Wang, Jianye Hao, Zhuoran Yang, Bin Zhao, Zhen Wang, Xuelong Li, (参考訳) オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。 しかし、成功したオフラインRLは、しばしば与えられたデータセットのカバレッジと品質に大きく依存する。 特定のタスクのデータセットが制限されている場合、自然なアプローチは、オフラインのRLを他のタスク、すなわち、マルチタスクデータ共有(MTDS)の実行で改善することです。 それでも、他のタスクから直接データセットを共有することは、オフラインのRLにおける分散シフトを悪化させる。 本稿では,データ選択なしでデータセット全体を共有する不確実性に基づくMTDS手法を提案する。 アンサンブルに基づく不確実性定量化を前提として、共有オフラインデータセット上で悲観的な値反復を行い、単一およびマルチタスクオフラインRLのための統一的なフレームワークを提供する。 さらに,提案手法の最適性ギャップが,共有データセットの予測データカバレッジにのみ関係していることを示し,データ共有における分散シフト問題を解消する理論解析を行った。 実証的に、MTDSベンチマークをリリースし、3つの挑戦的なドメインからデータセットを収集します。 実験の結果,MTDS問題に挑戦する上で,従来の最先端手法よりも優れた性能を示した。 データセットとコードについてはhttps://github.com/Baichenjia/UTDSを参照してください。

Offline Reinforcement Learning (RL) has shown promising results in learning a task-specific policy from a fixed dataset. However, successful offline RL often relies heavily on the coverage and quality of the given dataset. In scenarios where the dataset for a specific task is limited, a natural approach is to improve offline RL with datasets from other tasks, namely, to conduct Multi-Task Data Sharing (MTDS). Nevertheless, directly sharing datasets from other tasks exacerbates the distribution shift in offline RL. In this paper, we propose an uncertainty-based MTDS approach that shares the entire dataset without data selection. Given ensemble-based uncertainty quantification, we perform pessimistic value iteration on the shared offline dataset, which provides a unified framework for single- and multi-task offline RL. We further provide theoretical analysis, which shows that the optimality gap of our method is only related to the expected data coverage of the shared dataset, thus resolving the distribution shift issue in data sharing. Empirically, we release an MTDS benchmark and collect datasets from three challenging domains. The experimental results show our algorithm outperforms the previous state-of-the-art methods in challenging MTDS problems. See https://github.com/Baichenjia/UTDS for the datasets and code.
翻訳日:2024-05-01 14:54:34 公開日:2024-04-30
# 産業ロボットにおけるヒューマンAIインタラクション:説明可能なAIに基づくロボットプログラム最適化のためのユーザインタフェースの設計と実証評価

Human-AI Interaction in Industrial Robotics: Design and Empirical Evaluation of a User Interface for Explainable AI-Based Robot Program Optimization ( http://arxiv.org/abs/2404.19349v1 )

ライセンス: Link先を確認
Benjamin Alt, Johannes Zahn, Claudius Kienle, Julia Dvorak, Marvin May, Darko Katic, Rainer Jäkel, Tobias Kopp, Michael Beetz, Gisela Lanza, (参考訳) 近年のディープラーニングの進歩は、その変革の可能性を示しているが、実際の製造アプリケーションへの採用は限られている。 我々は,最先端のディープラーニングベースのロボットプログラムオプティマイザのための説明型ユーザインタフェース(XUI)を提案し,そのスキルレベルに応じたユーザエクスペリエンスを提供するとともに,現実世界のアプリケーションにディープラーニング手法を適用するための説明可能なAI(XAI)機能も提供する。 タスクパフォーマンス,ユーザ満足度,認知負荷に対するXUIの影響を評価するため,予備調査の結果を提示し,大規模フォローアップ研究のための研究設計を提案する。

While recent advances in deep learning have demonstrated its transformative potential, its adoption for real-world manufacturing applications remains limited. We present an Explanation User Interface (XUI) for a state-of-the-art deep learning-based robot program optimizer which provides both naive and expert users with different user experiences depending on their skill level, as well as Explainable AI (XAI) features to facilitate the application of deep learning methods in real-world applications. To evaluate the impact of the XUI on task performance, user satisfaction and cognitive load, we present the results of a preliminary user survey and propose a study design for a large-scale follow-up study.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# キラウエア火山におけるカルデラ崩壊現象の深層学習予測

Deep Learning Forecasts Caldera Collapse Events at Kīlauea Volcano ( http://arxiv.org/abs/2404.19351v1 )

ライセンス: Link先を確認
Ian W. McBrearty, Paul Segall, (参考訳) 2018年にハワイのK\=ilauea火山が噴火し、約60回の準周期の噴火で崩壊した。 Mw>5超長周期地震(VLP)を発生させた最後の40件は、0.8~2.2日間の時間間隔であった。 これらの障害イベントは、ローカルに記録されたGPS、傾き、および地震活動データに基づいて、地震の再発を予測するための独自のデータセットを提供する。 本研究では,各サイクルの開始時に記録されたデータのごく一部を用いて,カルデラ崩壊イベントの時間と障害を予測するために,ディープラーニンググラフニューラルネットワーク(GNN)を訓練する。 我々は,GNN がデータの発見を一般化し,0.5 日のデータのみを用いて数時間以内に障害を予測し,イベント間統計のみに基づくnull モデルを大幅に改善することを発見した。 入力データ長の増大により予測は改善され、高SNR傾斜計データを使用する場合に最も正確である。 トレーニングされたGNNをマグマ圧力減衰時間が異なる合成データに適用することで、ほぼ一定の応力閾値での故障を予測し、GNNがカルデラ崩壊の地下物理を感知していることを明らかにする。 これらの結果は,カルデラ崩壊シーケンスの予測可能性を示し,限られたトレーニングデータを用いた実世界の破滅的な事象を予測するための機械学習手法の可能性を強調した。

During the three month long eruption of K\=ilauea volcano, Hawaii in 2018, the pre-existing summit caldera collapsed in over 60 quasi-periodic failure events. The last 40 of these events, which generated Mw >5 very long period (VLP) earthquakes, had inter-event times between 0.8 - 2.2 days. These failure events offer a unique dataset for testing methods for predicting earthquake recurrence based on locally recorded GPS, tilt, and seismicity data. In this work, we train a deep learning graph neural network (GNN) to predict the time-to-failure of the caldera collapse events using only a fraction of the data recorded at the start of each cycle. We find that the GNN generalizes to unseen data and can predict the time-to-failure to within a few hours using only 0.5 days of data, substantially improving upon a null model based only on inter-event statistics. Predictions improve with increasing input data length, and are most accurate when using high-SNR tilt-meter data. Applying the trained GNN to synthetic data with different magma pressure decay times predicts failure at a nearly constant stress threshold, revealing that the GNN is sensing the underling physics of caldera collapse. These findings demonstrate the predictability of caldera collapse sequences under well monitored conditions, and highlight the potential of machine learning methods for forecasting real world catastrophic events with limited training data.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# PEFSL:FPGA SoC上の組込みFew-Shot学習のためのデプロイメントパイプライン

PEFSL: A deployment Pipeline for Embedded Few-Shot Learning on a FPGA SoC ( http://arxiv.org/abs/2404.19354v1 )

ライセンス: Link先を確認
Lucas Grativol Ribeiro, Lubin Gauthier, Mathieu Leonardon, Jérémy Morlier, Antoine Lavrard-Meyer, Guillaume Muller, Virginie Fresse, Matthieu Arzel, (参考訳) 本稿では,組込みシステム,特にFPGA SoC,特にデータ取得やラベル付けのコストが違法に高い場合において,多様な分類タスクに適応するための重要なアプローチについて述べる。 我々のコントリビューションは、FPGA SoC上のオブジェクト分類のための数ショットの学習プラットフォームのためのエンドツーエンドのオープンソースパイプラインの開発を含む。 パイプラインはTensilオープンソースフレームワーク上に構築されており、数ショットの学習に適したDNNバックボーンの設計、トレーニング、評価、デプロイを容易にする。 さらに、データフローアーキテクチャでMiniImageNetデータセットでトレーニングされた低消費電力で低レイテンシなデモレータを構築し、デプロイすることで、私たちの作業の可能性を示す。 提案システムは、PYNQ-Z1基板上で6.2Wを消費しながら、30ミリ秒のレイテンシを持つ。

This paper tackles the challenges of implementing few-shot learning on embedded systems, specifically FPGA SoCs, a vital approach for adapting to diverse classification tasks, especially when the costs of data acquisition or labeling prove to be prohibitively high. Our contributions encompass the development of an end-to-end open-source pipeline for a few-shot learning platform for object classification on a FPGA SoCs. The pipeline is built on top of the Tensil open-source framework, facilitating the design, training, evaluation, and deployment of DNN backbones tailored for few-shot learning. Additionally, we showcase our work's potential by building and deploying a low-power, low-latency demonstrator trained on the MiniImageNet dataset with a dataflow architecture. The proposed system has a latency of 30 ms while consuming 6.2 W on the PYNQ-Z1 board.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# 抑うつ症状推定のための辞書導入の評価

Evaluating Lexicon Incorporation for Depression Symptom Estimation ( http://arxiv.org/abs/2404.19359v1 )

ライセンス: Link先を確認
Kirill Milintsevich, Gaël Dias, Kairit Sirts, (参考訳) 本稿では、抑うつ症状推定のためのトランスフォーマーモデルに感情、感情、およびドメイン固有の語彙を組み込むことによる影響について検討する。 患者とセラピストの会話の入力書き起こしやソーシャルメディアの投稿で単語をマークすることで、語彙情報を追加する。 以上の結果から,事前学習した言語モデルにおける外部知識の導入は予測性能に有益であることが示唆された。 さらに, 患者・セラピストの面接におけるうつ病レベルを推定するために, 新たな検査結果を得た。

This paper explores the impact of incorporating sentiment, emotion, and domain-specific lexicons into a transformer-based model for depression symptom estimation. Lexicon information is added by marking the words in the input transcripts of patient-therapist conversations as well as in social media posts. Overall results show that the introduction of external knowledge within pre-trained language models can be beneficial for prediction performance, while different lexicons show distinct behaviours depending on the targeted task. Additionally, new state-of-the-art results are obtained for the estimation of depression level over patient-therapist interviews.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# 大規模言語モデルインフォームド特許画像検索

Large Language Model Informed Patent Image Retrieval ( http://arxiv.org/abs/2404.19360v1 )

ライセンス: Link先を確認
Hao-Cheng Lo, Jung-Mei Chu, Jieh Hsiang, Chun-Chieh Cho, (参考訳) 特許訴追において、現在の特許画像と先行技術との類似性を識別する画像ベースの検索システムは、特許出願の新規性と非回避性を保証するために重要である。 近年、人気が高まっているにもかかわらず、既存の試みは、同じ特許内で画像を認識するのに効果的であるが、関連する先行技術を取得するための限定的な一般化性のため、実用的価値の提供には失敗した。 さらに,この課題には,特許画像の抽象的な視覚的特徴,画像分類の歪んだ分布,画像記述の意味情報などによる課題が本質的に関係している。 そこで本稿では,大規模言語モデルを統合することで,特許画像の意味的理解を充実させ,提案した分散認識の対照的な損失を伴って,表現不足のクラスの性能を向上させる,言語による分散認識型マルチモーダルな特許画像特徴学習手法を提案する。 DeepPatent2データセットの大規模な実験により,画像に基づく特許検索において,mAP+53.3%,Recall@10+41.8%,MRR@10+51.9%で,最先端ないし同等のパフォーマンスが得られた。 さらに,詳細なユーザ分析を通じて,特許専門家のイメージ検索活動を支援するモデルについて検討し,実際の適用性と有効性を強調した。

In patent prosecution, image-based retrieval systems for identifying similarities between current patent images and prior art are pivotal to ensure the novelty and non-obviousness of patent applications. Despite their growing popularity in recent years, existing attempts, while effective at recognizing images within the same patent, fail to deliver practical value due to their limited generalizability in retrieving relevant prior art. Moreover, this task inherently involves the challenges posed by the abstract visual features of patent images, the skewed distribution of image classifications, and the semantic information of image descriptions. Therefore, we propose a language-informed, distribution-aware multimodal approach to patent image feature learning, which enriches the semantic understanding of patent image by integrating Large Language Models and improves the performance of underrepresented classes with our proposed distribution-aware contrastive losses. Extensive experiments on DeepPatent2 dataset show that our proposed method achieves state-of-the-art or comparable performance in image-based patent retrieval with mAP +53.3%, Recall@10 +41.8%, and MRR@10 +51.9%. Furthermore, through an in-depth user analysis, we explore our model in aiding patent professionals in their image retrieval efforts, highlighting the model's real-world applicability and effectiveness.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# 交渉者のバックアッププラン:貯蓄値による最適譲歩

A Negotiator's Backup Plan: Optimal Concessions with a Reservation Value ( http://arxiv.org/abs/2404.19361v1 )

ライセンス: Link先を確認
Tamara C. P. Florijn, Pinar Yolum, Tim Baarslag, (参考訳) 自動交渉は、自律エージェントが合意に達するためのよく知られたメカニズムである。 有利な合意を迅速に達成するためには、良い入札戦略を採用することが鍵となる。 交渉エージェントが良好なバックアッププラン、すなわち高い予約値を持ち、合意に達しない場合には、必ずしも不利ではない。 これにより、エージェントはリスク検索戦略を適用でき、より高いユーティリティで成果を期待できる。 そこで本研究では,MIA-RVelousと呼ばれる,個人予約値との双方向交渉のための入札戦略を開発した。 提案したグリーディアルゴリズムは、エージェントが相手に対する信念を$O(n^2D)$時間で考慮し、ラウンドの最大数と$n$で、最適な入札順序を求める。 ここで得られた結果は、同時交渉が(確率的な)バックアッププランとして機能することを考えると、効果的な同時交渉を実現するための道を開くことができる。

Automated negotiation is a well-known mechanism for autonomous agents to reach agreements. To realize beneficial agreements quickly, it is key to employ a good bidding strategy. When a negotiating agent has a good back-up plan, i.e., a high reservation value, failing to reach an agreement is not necessarily disadvantageous. Thus, the agent can adopt a risk-seeking strategy, aiming for outcomes with a higher utilities. Accordingly, this paper develops an optimal bidding strategy called MIA-RVelous for bilateral negotiations with private reservation values. The proposed greedy algorithm finds the optimal bid sequence given the agent's beliefs about the opponent in $O(n^2D)$ time, with $D$ the maximum number of rounds and $n$ the number of outcomes. The results obtained here can pave the way to realizing effective concurrent negotiations, given that concurrent negotiations can serve as a (probabilistic) backup plan.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# 表現性と音声合成

Expressivity and Speech Synthesis ( http://arxiv.org/abs/2404.19363v1 )

ライセンス: Link先を確認
Andreas Triantafyllopoulos, Björn W. Schuller, (参考訳) 会話能力を持つインスタントマシンは、人工知能(AI)研究を長年追求してきた。 当初から、コミュニティは、発話の意味を正確に伝達する高忠実な音声を合成することだけでなく、人間にできるような感情表現の範囲をカバーする屈折で色づけすることを目的としていた。 長年にわたる研究の末、私たちは単独で孤立した発話に関して、これを達成しようとしているようです。 これは、より複雑で長期的な振る舞いを合成することを目的として、これらの単一の発話を組み合わせることに関して、多くの潜在的な道が明らかにされている。 本章では, これまでの方法論の進歩を概説し, 次段階の人工表現性を実現するための継続的な取り組みについて概説する。 また、急速に進歩する表現型音声合成(ESS)技術と結びついた社会的含意についても論じ、これらのリスクを軽減し、倫理的規範とESS能力の整合性を確保する方法を強調した。

Imbuing machines with the ability to talk has been a longtime pursuit of artificial intelligence (AI) research. From the very beginning, the community has not only aimed to synthesise high-fidelity speech that accurately conveys the semantic meaning of an utterance, but also to colour it with inflections that cover the same range of affective expressions that humans are capable of. After many years of research, it appears that we are on the cusp of achieving this when it comes to single, isolated utterances. This unveils an abundance of potential avenues to explore when it comes to combining these single utterances with the aim of synthesising more complex, longer-term behaviours. In the present chapter, we outline the methodological advances that brought us so far and sketch out the ongoing efforts to reach that coveted next level of artificial expressivity. We also discuss the societal implications coupled with rapidly advancing expressive speech synthesis (ESS) technology and highlight ways to mitigate those risks and ensure the alignment of ESS capabilities with ethical norms.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# 脳言語表現をナビゲートする:神経言語モデルと心理的に可塑性なモデルの比較分析

Navigating Brain Language Representations: A Comparative Analysis of Neural Language Models and Psychologically Plausible Models ( http://arxiv.org/abs/2404.19364v1 )

ライセンス: Link先を確認
Yunhao Zhang, Shaonan Wang, Xinyi Dong, Jiajun Yu, Chengqing Zong, (参考訳) ニューラルネットワークモデル、特に大規模モデルは、さまざまな研究で脳の神経活動を予測するのに最も効果的であることが一貫して証明されている。 しかし、以前の研究では、これらのモデルと心理的に妥当なモデルの比較を見落としていた。 さらに、評価は限定的、単一モダリティ、および英語の認知データセットに依存していた。 これらの問題に対処するために、様々なニューラルネットワークモデルと心理的に妥当なモデルの符号化性能の比較分析を行った。 本研究は、バイリンガル語と談話レベルを調べるために、広範囲な多モーダル認知データセットを用いた。 意外なことに、心理学的に妥当なモデルでは、fMRIや視線追跡、言語を英語から中国語に広げるなど、さまざまな文脈でニューラルネットワークモデルよりも優れていたことが判明した。 心理的にもっともらしいモデルの中で、具体化された情報を取り入れたモデルが特に例外として現れた。 このモデルでは,言語レベルと言論レベルの両方において優れた性能を示し,英語と中国語の両領域において脳活動の堅牢な予測を示した。

Neural language models, particularly large-scale ones, have been consistently proven to be most effective in predicting brain neural activity across a range of studies. However, previous research overlooked the comparison of these models with psychologically plausible ones. Moreover, evaluations were reliant on limited, single-modality, and English cognitive datasets. To address these questions, we conducted an analysis comparing encoding performance of various neural language models and psychologically plausible models. Our study utilized extensive multi-modal cognitive datasets, examining bilingual word and discourse levels. Surprisingly, our findings revealed that psychologically plausible models outperformed neural language models across diverse contexts, encompassing different modalities such as fMRI and eye-tracking, and spanning languages from English to Chinese. Among psychologically plausible models, the one incorporating embodied information emerged as particularly exceptional. This model demonstrated superior performance at both word and discourse levels, exhibiting robust prediction of brain activation across numerous regions in both English and Chinese.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# コード生成における大規模コードモデルの多言語バイアスの探索

Exploring Multi-Lingual Bias of Large Code Models in Code Generation ( http://arxiv.org/abs/2404.19368v1 )

ライセンス: Link先を確認
Chaozheng Wang, Zongjie Li, Cuiyun Gao, Wenxuan Wang, Ting Peng, Hailiang Huang, Yuetang Deng, Shuai Wang, Michael R. Lyu, (参考訳) コード生成は、コードを合成し、自然言語(NL)仕様に基づいて機能要件を満たすことを目的としている。 大規模言語モデル (LLM) の時代、ソースコードを生成するために大規模なコードモデル (LCM) が最近提案されている。 LCMは、自然言語で記述されたプログラミング問題に対して、非常に実現可能なソリューションを生成することができる。 この効果にもかかわらず, LCMの生成性能に顕著な多言語バイアスが認められる。 特に、LCMは、英語の命令が提供されると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、混乱する可能性がある。 さらに、LCMがコードを生成する能力は、PythonやC++など、さまざまなプログラミング言語(PL)にまたがっている。 観察された現象は, LCMの生成能に多言語バイアスが存在することを示しているが, 未解明のままである。 本稿では,現在のLCMに存在する多言語バイアスについて検討する。 まず,マルチ言語評価ベンチマークX-HumanEval-Xを構築し,現在のLCMに存在するマルチ言語バイアスの程度を体系的に評価する。 9つの人気のあるLCMに関する大規模な実験では、マルチNLやマルチPLバイアスを含むコード生成におけるLCMの多言語バイアスが顕著に観察される。 具体的には、中国語の命令を使用すると、Pass@1メトリックスの観点から、LCMのコード生成能力は少なくとも13%低下する。 さらに、LCMは、PythonとC++のパフォーマンスギャップが最大で20.9%に達するなど、様々なプログラミング言語で様々なパフォーマンスを実現している。 はぁ...。

Code generation aims to synthesize code and fulfill functional requirements based on natural language (NL) specifications, which can greatly improve development efficiency. In the era of large language models (LLMs), large code models (LCMs) have been recently proposed to generate source code. LCMs can generate highly feasible solutions for programming problems described in natural language. Despite the effectiveness, we observe a noticeable multilingual bias in the generation performance of LCMs. Specifically, LCMs demonstrate proficiency in generating solutions when provided with instructions in English, yet may falter when faced with semantically equivalent instructions in other NLs such as Chinese. Moreover, the ability of LCMs to generate code exhibits variety across different programming languages (PLs), such as Python and C++. The observed phenomenon indicates the presence of multi-lingual bias within the generative capabilities of LCMs, which has remained unexplored. In this paper, we aim to investigate the multi-lingual bias that exists in current LCMs. First, we initiate our investigation by constructing the first multi-lingual evaluation benchmark X-HumanEval-X, enabling us to systematically evaluate the extent of multi-lingual bias that exists in current LCMs. In our large-scale experiments on nine popular LCMs, we observe a pronounced multi-lingual bias of LCMs in code generation, including multi-NL and multi-PL bias. Specifically, when using Chinese instructions, the code generation capabilities of LCMs decrease by at least 13% in terms of the Pass@1 metric. Furthermore, LCMs perform variously across different programming languages, e.g., the performance gap between Python and C++ reaches as high as 20.9%. ...
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# 大規模言語モデルにおける照準精度の評価_ChatGPTとGeminiの比較分析

Evaluating Telugu Proficiency in Large Language Models_ A Comparative Analysis of ChatGPT and Gemini ( http://arxiv.org/abs/2404.19369v1 )

ライセンス: Link先を確認
Katikela Sreeharsha Kishore, Rahimanuddin Shaik, (参考訳) 大きな言語モデル(LLM)の普及は、その能力が英語を超えて探究する必要がある。 本研究では,ChatGPT と Gemini のTelugu 言語の習熟度について検討した。 挨拶、文法、語彙、共通語句、タスク完了、状況推論を含む20の質問をデザインして、この研究はテルグ語を扱う際の長所と短所を掘り下げた。 この分析は、テルグ語の文法構造をより深く理解し、より広い語彙を持ち、文章や推論といったタスクにおいて優れたパフォーマンスを示すLLMを特定することを目的としている。 日常的なTelugu表現の理解と使用能力を比較することで、現実世界の言語相互作用に対する適合性に光を当てている。 さらに、適応性と推論能力の評価は、各LLMが動的状況に対応するためにTeluguをどのように活用するかについての洞察を提供する。 この比較分析は、AIにおける多言語機能に関する継続的な議論に寄与し、テルグ語を話すコミュニティとシームレスに統合できるLLMの開発における将来の研究の道を開く。

The growing prominence of large language models (LLMs) necessitates the exploration of their capabilities beyond English. This research investigates the Telugu language proficiency of ChatGPT and Gemini, two leading LLMs. Through a designed set of 20 questions encompassing greetings, grammar, vocabulary, common phrases, task completion, and situational reasoning, the study delves into their strengths and weaknesses in handling Telugu. The analysis aims to identify the LLM that demonstrates a deeper understanding of Telugu grammatical structures, possesses a broader vocabulary, and exhibits superior performance in tasks like writing and reasoning. By comparing their ability to comprehend and use everyday Telugu expressions, the research sheds light on their suitability for real-world language interaction. Furthermore, the evaluation of adaptability and reasoning capabilities provides insights into how each LLM leverages Telugu to respond to dynamic situations. This comparative analysis contributes to the ongoing discussion on multilingual capabilities in AI and paves the way for future research in developing LLMs that can seamlessly integrate with Telugu-speaking communities.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# 数値リワード機

Numeric Reward Machines ( http://arxiv.org/abs/2404.19370v1 )

ライセンス: Link先を確認
Kristina Levina, Nikolaos Pappas, Athanasios Karapantelakis, Aneta Vulgarakis Feljan, Jendrik Seipp, (参考訳) リワードマシンは、環境の報酬構造について強化学習エージェントに通知し、しばしば学習プロセスを劇的に高速化する。 しかし、報酬機は、ロボットリーチゴールドのようなブール機能しか受け入れない。 したがって、本質的に数値的なタスクの多くは、報酬機が提供するガイダンスから利益を得ることができない。 このギャップに対処するため、我々は報酬機に距離・金などの数値的特徴を持たせることを目的としている。 これに対し、報奨機には数値ブールと数値の2種類がある。 数値報奨機において、距離から金までの距離は、距離から金までとロボットまでの距離の2つの特徴によってエミュレートされる。 数値報酬機では、Boolean機能ロボットラッチゴールドと並んで、距離と金が直接使用される。 我々は、新しいアプローチをCraftドメインのベースライン報酬マシンと比較し、数値的特徴はエージェント・ツー・ターゲット距離である。 クロスプロダクトなQ-ラーニング、対実体験を備えたQ-ラーニング、学習のためのオプションフレームワークを使用します。 実験の結果,我々の新しいアプローチはベースラインアプローチを著しく上回ることがわかった。 数値的特徴を持つ報酬機械の拡張は、本質的に数値的なタスクで報酬機械を使用する新たな可能性を開く。

Reward machines inform reinforcement learning agents about the reward structure of the environment and often drastically speed up the learning process. However, reward machines only accept Boolean features such as robot-reached-gold. Consequently, many inherently numeric tasks cannot profit from the guidance offered by reward machines. To address this gap, we aim to extend reward machines with numeric features such as distance-to-gold. For this, we present two types of reward machines: numeric-Boolean and numeric. In a numeric-Boolean reward machine, distance-to-gold is emulated by two Boolean features distance-to-gold-decreased and robot-reached-gold. In a numeric reward machine, distance-to-gold is used directly alongside the Boolean feature robot-reached-gold. We compare our new approaches to a baseline reward machine in the Craft domain, where the numeric feature is the agent-to-target distance. We use cross-product Q-learning, Q-learning with counter-factual experiences, and the options framework for learning. Our experimental results show that our new approaches significantly outperform the baseline approach. Extending reward machines with numeric features opens up new possibilities of using reward machines in inherently numeric tasks.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# AIの公正性 - アルゴリズムと法律のギャップを埋める上での課題

Fairness in AI: challenges in bridging the gap between algorithms and law ( http://arxiv.org/abs/2404.19371v1 )

ライセンス: Link先を確認
Giorgos Giannopoulos, Maria Psalla, Loukas Kavouras, Dimitris Sacharidis, Jakub Marecek, German M Matilla, Ioannis Emiris, (参考訳) 本稿では、現実のシステムやユースケースにおける公正性の定義とアルゴリズムの仕様化と導入のためのベストプラクティスと戦略を特定することを目的とした法の観点から、アルゴリズムの公正性について検討する。 まず、EUと米国における現行の差別防止法の簡単な導入と、法的・倫理的視点からバイアスと公平性の概念について議論することから始めます。 次に,アルゴリズムフェアネス定義の集合を例として提示し,その目的を非技術的観衆に伝達することを目指す。 そこで,本研究では,実世界のユースケースアプリケーションに対して,特定の公平性の定義を選択する際に考慮すべきコア基準について紹介する。 最後に、現実のAIアプリケーションにおけるフェアネス手法の設計と採用のための重要な考慮事項とベストプラクティスのセットを列挙する。

In this paper we examine algorithmic fairness from the perspective of law aiming to identify best practices and strategies for the specification and adoption of fairness definitions and algorithms in real-world systems and use cases. We start by providing a brief introduction of current anti-discrimination law in the European Union and the United States and discussing the concepts of bias and fairness from an legal and ethical viewpoint. We then proceed by presenting a set of algorithmic fairness definitions by example, aiming to communicate their objectives to non-technical audiences. Then, we introduce a set of core criteria that need to be taken into account when selecting a specific fairness definition for real-world use case applications. Finally, we enumerate a set of key considerations and best practices for the design and employment of fairness methods on real-world AI applications
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# 超ラジカル量子相転移の絡み合い信号

Entanglement Signature of the Superradiant Quantum Phase Transition ( http://arxiv.org/abs/2404.19373v1 )

ライセンス: Link先を確認
Arthur Vesperini, Matteo Cini, Roberto Franzosi, (参考訳) 原子間の絡み合いと量子相関は通常、超ラジカル相転移の鍵となる要素とはみなされない。 ここでは、2レベル原子の可解系であるTavis-Cummingsモデルと1モードの量子化電磁場について考察する。 この系は、有限サイズのフレームワークであっても、自発対称性の破れと無限のエネルギー準位交差を伴う超ラジカル相転移を行う。 基底状態、そのエネルギー、および準位交差の位置に関する近似式は、原子について非常に多くの光子の極限で有効である。 同じ限界において、光子の数は結合強度と2次にスケールし、系の大きさと線形にスケールし、超放射現象の新たな洞察を与える。 この量子相転移は、新しいマルチパーティイト測度に比例して、量子相関と原子間の絡み合い(量子ビット)の交叉を伴うことが示される。 したがって後者は、この遷移にふさわしい順序パラメータを表す。 最後に、量子相転移のこれらの性質が熱力学的極限に持続していることを示す。

Entanglement and quantum correlations between atoms are not usually considered key ingredients of the superradiant phase transition. Here we consider the Tavis-Cummings model, a solvable system of two-levels atoms, coupled with a single-mode quantized electromagnetic field. This system undergoes a superradiant phase transition, even in a finite-size framework, accompanied by a spontaneous symmetry breaking, and an infinite sequence of energy level crossings. We find approximated expressions for the ground state, its energy, and the position of the level crossings, valid in the limit of a very large number of photons with respect to that of the atoms. In that same limit, we find that the number of photons scales quadratically with the coupling strength, and linearly with the system size, providing a new insight into the superradiance phenomenon. Resorting to novel multipartite measures, we then demonstrate that this quantum phase transition is accompanied by a crossover in the quantum correlations and entanglement between the atoms (qubits). The latters therefore represent suited order parameters for this transition. Finally, we show that these properties of the quantum phase transition persist in the thermodynamic limit.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# セマンティックフォーマー:知識グラフを用いた軌道予測のための全体的かつセマンティックな交通シーン表現

SemanticFormer: Holistic and Semantic Traffic Scene Representation for Trajectory Prediction using Knowledge Graphs ( http://arxiv.org/abs/2404.19379v1 )

ライセンス: Link先を確認
Zhigang Sun, Zixu Wang, Lavdim Halilaj, Juergen Luettin, (参考訳) 自律運転における軌道予測は、交通参加者、道路トポロジ、交通標識、およびそれらの相互の意味的関係を含む運転シーンのすべての関連状況の正確な表現に依存する。 この問題に注目が集まる一方で、軌道予測のほとんどのアプローチはこれらの要因を十分に考慮していない。 本稿では,セマンティックフォーマーを用いて,ハイブリッド手法を用いてセマンティックトラフィックシーングラフを解析することにより,マルチモーダルトラジェクトリを予測する手法について述べる。 知識グラフから意味的メタパスの形で高レベル情報を抽出し,複数の注意機構に基づいて新しいパイプラインによって処理し,正確な軌跡を推定する。 提案アーキテクチャは,エージェント間およびエージェントと道路要素間の時空間的および関係的な情報をキャプチャ可能な階層的ヘテロジニアスグラフエンコーダと,異なるエンコーディングを融合させ,確率で軌道を復号する予測器とを備える。 最後に、改良モジュールは、許容された軌跡のメタパスと速度プロファイルを評価し、最終的な予測軌跡を得る。 nuScenesベンチマークの評価は、最先端の手法と比較して改善された性能を示している。

Trajectory prediction in autonomous driving relies on accurate representation of all relevant contexts of the driving scene including traffic participants, road topology, traffic signs as well as their semantic relations to each other. Despite increased attention to this issue, most approaches in trajectory prediction do not consider all of these factors sufficiently. This paper describes a method SemanticFormer to predict multimodal trajectories by reasoning over a semantic traffic scene graph using a hybrid approach. We extract high-level information in the form of semantic meta-paths from a knowledge graph which is then processed by a novel pipeline based on multiple attention mechanisms to predict accurate trajectories. The proposed architecture comprises a hierarchical heterogeneous graph encoder, which can capture spatio-temporal and relational information across agents and between agents and road elements, and a predictor that fuses the different encodings and decodes trajectories with probabilities. Finally, a refinement module evaluates permitted meta-paths of trajectories and speed profiles to obtain final predicted trajectories. Evaluation of the nuScenes benchmark demonstrates improved performance compared to the state-of-the-art methods.
翻訳日:2024-05-01 14:54:33 公開日:2024-04-30
# 未学習拡散モデルの提案:移動可能な対向攻撃の視点

Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective ( http://arxiv.org/abs/2404.19382v1 )

ライセンス: Link先を確認
Xiaoxuan Han, Songlin Yang, Wei Wang, Yang Li, Jing Dong, (参考訳) 高度なテキストから画像への拡散モデルは、アイデンティティのプライバシー侵害、著作権侵害、職場コンテンツ生成のための安全でないことに関する安全上の懸念を提起する。 これに向けて,これらの概念を拡散モデルから除去するアンラーニング手法が開発されている。 しかし、これらの未学習の手法は、テキストから画像へのマッピングをシフトし、拡散モデルの生成空間内の視覚的内容を保存するだけであり、これら消去された概念を復元する致命的な欠陥を残している。 この消去信頼性問題は、調査を必要とするが、従来の手法は、(1)転送可能性の欠如: ホワイトボックスの設定内で動作し、未学習のモデルへのアクセスを必要とする方法がある。 学習された敵対的入力は、しばしば概念回復のための他の未学習モデルに転送できない; (2) 限定攻撃: プロンプトレベルの手法は、有名人のアイデンティティのような未学習モデルから狭い概念を復元するのに苦労する。 そこで本稿は,ブラックボックス環境下での学習不能なロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。 この挑戦的なシナリオは、未学習の手法が未知であり、未学習のモデルを最適化するにはアクセスできないと仮定し、異なる未学習のモデルをまたいで攻撃を行う必要がある。 具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。 この戦略では、元の安定拡散モデルを代理モデルとして採用し、埋め込みを反復的に消去し、検索することで、異なる未学習メソッドのターゲット概念を復元できる埋め込みを見つけることができる。 広範囲な実験は、いくつかの最先端の未学習手法にまたがる探索された敵対的埋め込みの伝達可能性と、その異なるレベルの概念に対する有効性を示す。

Advanced text-to-image diffusion models raise safety concerns regarding identity privacy violation, copyright infringement, and Not Safe For Work content generation. Towards this, unlearning methods have been developed to erase these involved concepts from diffusion models. However, these unlearning methods only shift the text-to-image mapping and preserve the visual content within the generative space of diffusion models, leaving a fatal flaw for restoring these erased concepts. This erasure trustworthiness problem needs probe, but previous methods are sub-optimal from two perspectives: (1) Lack of transferability: Some methods operate within a white-box setting, requiring access to the unlearned model. And the learned adversarial input often fails to transfer to other unlearned models for concept restoration; (2) Limited attack: The prompt-level methods struggle to restore narrow concepts from unlearned models, such as celebrity identity. Therefore, this paper aims to leverage the transferability of the adversarial attack to probe the unlearning robustness under a black-box setting. This challenging scenario assumes that the unlearning method is unknown and the unlearned model is inaccessible for optimization, requiring the attack to be capable of transferring across different unlearned models. Specifically, we employ an adversarial search strategy to search for the adversarial embedding which can transfer across different unlearned models. This strategy adopts the original Stable Diffusion model as a surrogate model to iteratively erase and search for embeddings, enabling it to find the embedding that can restore the target concept for different unlearning methods. Extensive experiments demonstrate the transferability of the searched adversarial embedding across several state-of-the-art unlearning methods and its effectiveness for different levels of concepts.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# 骨格に基づくスポーツ行動認識のためのクロスブロックファイングレードセマンティックカスケード

Cross-Block Fine-Grained Semantic Cascade for Skeleton-Based Sports Action Recognition ( http://arxiv.org/abs/2404.19383v1 )

ライセンス: Link先を確認
Zhendong Liu, Haifeng Xia, Tong Guo, Libo Sun, Ming Shao, Siyu Xia, (参考訳) 人間のアクションビデオ認識は、近年、ビデオセキュリティやスポーツ姿勢補正などのアプリケーションで注目を集めている。 人間の骨格を時空間グラフとしてモデル化するグラフ畳み込みネットワーク(GCN)を含む一般的な解は、非常に有効であることが証明されている。 スタックブロックを持つGCNsベースのメソッドは通常、分類/アノテーションの目的で上位層セマンティクスを使用する。 この手順を通じて得られたグローバルな特徴は、一般的な分類に適しているが、スポーツ行動における決定的な要因である、隣接するフレーム間でのきめ細かい行動変化を捉えるのが困難である。 本稿では,この課題を克服するために,<Cross-block Fine-fine Semantic Cascade (CFSC)' モジュールを提案する。 要約すると、提案するCFSCは、浅い視覚知識をハイレベルなブロックに徐々に統合し、ネットワークがアクションの詳細に集中できるようにする。 特に、CFSCモジュールは、異なるレベルで生成されたGCN特徴マップと、進行レベルから集約された特徴を利用して、きめ細かい特徴を統合する。 さらに、各レベルに専用の時間的畳み込みを適用して、浅い層から深い層へと受け継がれ、低レベルの詳細を最大限に活用する短期的特徴を学習する。 このクロスブロック機能集約手法は、きめ細かい情報の損失を軽減することができ、性能が向上した。 最後に、フェンシングスポーツのための新しいアクション認識データセットであるFD-7が収集され、一般公開される予定である。 公共ベンチマーク(FSD-10)と自己コンパイル(FD-7)に関する実験結果と実証分析により,CFSCモジュールの他者に対する行動分類における識別パターンの学習における利点が示された。

Human action video recognition has recently attracted more attention in applications such as video security and sports posture correction. Popular solutions, including graph convolutional networks (GCNs) that model the human skeleton as a spatiotemporal graph, have proven very effective. GCNs-based methods with stacked blocks usually utilize top-layer semantics for classification/annotation purposes. Although the global features learned through the procedure are suitable for the general classification, they have difficulty capturing fine-grained action change across adjacent frames -- decisive factors in sports actions. In this paper, we propose a novel ``Cross-block Fine-grained Semantic Cascade (CFSC)'' module to overcome this challenge. In summary, the proposed CFSC progressively integrates shallow visual knowledge into high-level blocks to allow networks to focus on action details. In particular, the CFSC module utilizes the GCN feature maps produced at different levels, as well as aggregated features from proceeding levels to consolidate fine-grained features. In addition, a dedicated temporal convolution is applied at each level to learn short-term temporal features, which will be carried over from shallow to deep layers to maximize the leverage of low-level details. This cross-block feature aggregation methodology, capable of mitigating the loss of fine-grained information, has resulted in improved performance. Last, FD-7, a new action recognition dataset for fencing sports, was collected and will be made publicly available. Experimental results and empirical analysis on public benchmarks (FSD-10) and self-collected (FD-7) demonstrate the advantage of our CFSC module on learning discriminative patterns for action classification over others.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# クロスデータセット3次元物体検出における教師なしドメイン適応のための擬似ラベル精錬

Pseudo Label Refinery for Unsupervised Domain Adaptation on Cross-dataset 3D Object Detection ( http://arxiv.org/abs/2404.19384v1 )

ライセンス: Link先を確認
Zhanwei Zhang, Minghao Chen, Shuai Xiao, Liang Peng, Hengjia Li, Binbin Lin, Ping Li, Wenxiao Wang, Boxi Wu, Deng Cai, (参考訳) 近年の自己学習技術は、3次元物体検出(3D UDA)における教師なし領域適応の顕著な改善を示している。 これらの技法は典型的には、ターゲット領域のモデルを監督するために擬似ラベル、すなわち3Dボックスを選択する。 しかし、この選択プロセスでは、不確実な3Dボックスが必然的に導入され、3Dポイントがフォアグラウンドやバックグラウンドとして決定的に割り当てられることができない。 従来のテクニックでは、これらのボックスを擬似ラベルとして再重み付けすることでこれを緩和するが、これらのボックスはトレーニングプロセスに悪影響を及ぼす可能性がある。 本稿では,この問題を解決するために,新しい擬似ラベル精錬フレームワークを提案する。 具体的には,選択過程において疑似ボックスの信頼性を向上させるため,補完的な拡張戦略を提案する。 この戦略では、信頼できないボックス内のすべてのポイントを削除するか、高信頼のボックスに置き換える。 さらに、ハイビームデータセットのインスタンスのポイント数は、ロービームデータセットのインスタンスよりもかなり高く、トレーニングプロセス中に擬似ラベルの品質を低下させる。 私たちは、追加の提案を生成し、異なるドメインにまたがってRoI機能を調整することで、この問題を緩和します。 実験の結果,提案手法は擬似ラベルの品質を効果的に向上し,6つの自律走行ベンチマークの最先端手法を一貫して上回っていることがわかった。 コードはhttps://github.com/Zhanwei-Z/PERE.comから入手できる。

Recent self-training techniques have shown notable improvements in unsupervised domain adaptation for 3D object detection (3D UDA). These techniques typically select pseudo labels, i.e., 3D boxes, to supervise models for the target domain. However, this selection process inevitably introduces unreliable 3D boxes, in which 3D points cannot be definitively assigned as foreground or background. Previous techniques mitigate this by reweighting these boxes as pseudo labels, but these boxes can still poison the training process. To resolve this problem, in this paper, we propose a novel pseudo label refinery framework. Specifically, in the selection process, to improve the reliability of pseudo boxes, we propose a complementary augmentation strategy. This strategy involves either removing all points within an unreliable box or replacing it with a high-confidence box. Moreover, the point numbers of instances in high-beam datasets are considerably higher than those in low-beam datasets, also degrading the quality of pseudo labels during the training process. We alleviate this issue by generating additional proposals and aligning RoI features across different domains. Experimental results demonstrate that our method effectively enhances the quality of pseudo labels and consistently surpasses the state-of-the-art methods on six autonomous driving benchmarks. Code will be available at https://github.com/Zhanwei-Z/PERE.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# 重み付きフィードバックに基づく励起状態計算のための量子アルゴリズム

Weighted Feedback-Based Quantum Algorithm for Excited States Calculation ( http://arxiv.org/abs/2404.19386v1 )

ライセンス: Link先を確認
Salahuddin Abdul Rahman, Özkan Karabacak, Rafal Wisniewski, (参考訳) 量子系のリアプノフ制御技術からインスピレーションを得て、ハミルトニアンの基底状態を計算するためにフィードバックベースの量子アルゴリズムが提案されている。 本研究では、これらのアルゴリズムを拡張して、励起状態の計算に取り組むことを検討する。 重み付き部分空間探索変分量子固有解法アルゴリズムに着想を得て, 励起状態計算のための新しい重み付きフィードバックベース量子アルゴリズムを提案する。 我々は、重みとフィードバック法則をどう設計するかによって、$p$th励起状態または$p$th励起状態までの最低エネルギー状態を作成することができることを示した。 量子化学の応用を通して,提案アルゴリズムの有効性を示し,その効果を数値シミュレーションを用いて評価する。

Drawing inspiration from the Lyapunov control technique for quantum systems, feedback-based quantum algorithms have been proposed for calculating the ground states of Hamiltonians. In this work, we consider extending these algorithms to tackle calculating excited states. Inspired by the weighted subspace-search variational quantum eigensolver algorithm, we propose a novel weighted feedback-based quantum algorithm for excited state calculation. We show that depending on how we design the weights and the feedback law, we can prepare the $p$th excited state or lowest energy states up to the $p$th excited state. Through an application in quantum chemistry, we show the effectiveness of the proposed algorithm, evaluating its efficacy via numerical simulations.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# CLIP-Mamba:OODおよびHessianによるCLIP事前訓練マンバモデル

CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation ( http://arxiv.org/abs/2404.19394v1 )

ライセンス: Link先を確認
Weiquan Huang, Yifei Shen, Yifan Yang, (参考訳) 状態空間モデルとマンバベースのモデルは様々な領域にまたがって適用され、最先端のパフォーマンスを実現している。 本技術報告では,コントラッシブ言語画像事前学習(CLIP)を用いて,転送可能なマンバモデルをトレーニングする最初の試みを紹介する。 さまざまなサイズのMambaモデルをトレーニングし,26のゼロショット分類データセットと16のアウト・オブ・ディストリビューション(OOD)データセットを用いて,これらのモデルの包括的評価を行った。 その結果,6700万パラメータを持つMambaモデルは,ゼロショット分類タスクにおける3700万パラメータビジョン変換器(ViT)モデルと同等であり,Mambaモデルのパラメータ効率を強調した。 OOD一般化の試験では、マンバモデルでは、OOD画像コントラストの条件やハイパスフィルタリングの条件下では例外的な性能を示す。 しかし、Hessian分析によれば、MambaモデルはViTベースのモデルに比べて、よりシャープで非凸の風景が特徴であり、訓練がより困難である。 ソースコードはhttps://github.com/raytrun/mamba-clip.comで入手できる。

State space models and Mamba-based models have been increasingly applied across various domains, achieving state-of-the-art performance. This technical report introduces the first attempt to train a transferable Mamba model utilizing contrastive language-image pretraining (CLIP). We have trained Mamba models of varying sizes and undertaken comprehensive evaluations of these models on 26 zero-shot classification datasets and 16 out-of-distribution (OOD) datasets. Our findings reveal that a Mamba model with 67 million parameters is on par with a 307 million-parameter Vision Transformer (ViT) model in zero-shot classification tasks, highlighting the parameter efficiency of Mamba models. In tests of OOD generalization, Mamba-based models exhibit exceptional performance in conditions of OOD image contrast or when subjected to high-pass filtering. However, a Hessian analysis indicates that Mamba models feature a sharper and more non-convex landscape compared to ViT-based models, making them more challenging to train. The source code is available at https://github.com/raytrun/mamba-clip.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# 人間は機械にプログラミングを教えることができるのか?

Can humans teach machines to code? ( http://arxiv.org/abs/2404.19397v1 )

ライセンス: Link先を確認
Céline Hocquette, Johannes Langer, Andrew Cropper, Ute Schmid, (参考訳) 帰納的プログラム合成の目標は、プログラムの望ましい動作のユーザが提供する例から自動的にプログラムを生成することである。 鍵となる前提は、人間が機械に概念を教えるのに十分な品質の例を提供することができるということである。 しかし、我々が知っている限りでは、この仮定には経験的および理論的支持が欠けている。 この制限に対処するため、我々は「人間は機械にプログラミングを教えるのか?」という疑問を探る。 この問いに答えるために、我々は人間にリストの最大要素を見つけるなど、6つのプログラミングタスクの例を作成するよう依頼する研究を行う。 学習したプログラム合成システムの性能の比較を行う。 一 人為的な例 (二)ランダムにサンプルを採取し、 (三)専門家による例。 その結果,ほとんどのタスクにおいて,熟練者以外の参加者は,プログラム合成システムで正確なプログラムを学習する十分な例を提供していなかった。 また,非専門家が無作為なサンプルや専門家によるサンプルよりも多くのサンプルを提供する必要があることも示唆した。

The goal of inductive program synthesis is for a machine to automatically generate a program from user-supplied examples of the desired behaviour of the program. A key underlying assumption is that humans can provide examples of sufficient quality to teach a concept to a machine. However, as far as we are aware, this assumption lacks both empirical and theoretical support. To address this limitation, we explore the question `Can humans teach machines to code?'. To answer this question, we conduct a study where we ask humans to generate examples for six programming tasks, such as finding the maximum element of a list. We compare the performance of a program synthesis system trained on (i) human-provided examples, (ii) randomly sampled examples, and (iii) expert-provided examples. Our results show that, on most of the tasks, non-expert participants did not provide sufficient examples for a program synthesis system to learn an accurate program. Our results also show that non-experts need to provide more examples than both randomly sampled and expert-provided examples.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# 頭部アバターアニメーションのための3次元ガウスブレンドサプシス

3D Gaussian Blendshapes for Head Avatar Animation ( http://arxiv.org/abs/2404.19398v1 )

ライセンス: Link先を確認
Shengjie Ma, Yanlin Weng, Tianjia Shao, Kun Zhou, (参考訳) フォトリアリスティックヘッドアバターをモデル化するための3次元ガウス混合モデルを提案する。 モノクロ映像を入力として、中性表現のベースヘッドモデルと、古典的パラメトリック顔モデルにおける基底表現に対応する表現群をブレンドする。 ニュートラルモデルと表現ブレンドサップはどちらも3Dガウスとして表現され、アバターの外観を表すいくつかの性質を含む。 任意の表現のアバターモデルは、ガウスの線形ブレンディングと表現係数を結合することで、中立モデルと表現をブレンドすることで効果的に生成することができる。 高忠実度頭部アバターアニメーションはガウススプラッティングを用いてリアルタイムで合成できる。 最先端の手法と比較して、ガウスのブレンドシェープ表現は、入力ビデオに表示される高周波の詳細をよりよく捉え、より優れたレンダリング性能を実現する。

We introduce 3D Gaussian blendshapes for modeling photorealistic head avatars. Taking a monocular video as input, we learn a base head model of neutral expression, along with a group of expression blendshapes, each of which corresponds to a basis expression in classical parametric face models. Both the neutral model and expression blendshapes are represented as 3D Gaussians, which contain a few properties to depict the avatar appearance. The avatar model of an arbitrary expression can be effectively generated by combining the neutral model and expression blendshapes through linear blending of Gaussians with the expression coefficients. High-fidelity head avatar animations can be synthesized in real time using Gaussian splatting. Compared to state-of-the-art methods, our Gaussian blendshape representation better captures high-frequency details exhibited in input video, and achieves superior rendering performance.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# UniFS:ポイント表現によるユニバーサルなFew-shotインスタンス認識

UniFS: Universal Few-shot Instance Perception with Point Representations ( http://arxiv.org/abs/2404.19401v1 )

ライセンス: Link先を確認
Sheng Jin, Ruijie Yao, Lumin Xu, Wentao Liu, Chen Qian, Ji Wu, Ping Luo, (参考訳) 視覚モデルの産業的応用において、インスタンス認識タスク(オブジェクト検出、インスタンスセグメンテーション、ポーズ推定、カウント)が重要な役割を果たす。 教師付き学習手法は高いラベル付けコストに悩まされるため、限られたラベル付き事例から効果的に学習する少数ショット学習法が望まれる。 既存の数発の学習方法は、主に制限されたタスクセットに焦点を当てている。これはおそらく、多種多様なタスクを統一的に表現できるジェネリックモデルを設計する際の課題である。 本稿では,UniFSを提案する。UniFSは,インスタンス認識タスクを動的ポイント表現学習フレームワークに再構成することで,幅広いインスタンス認識タスクを統一する汎用的なインスタンス認識モデルである。 さらに,特徴点間の高次構造関係を利用して表現学習を強化する構造認識ポイント学習(SAPL)を提案する。 提案手法は,タスクについて最小限の仮定を行うが,高度に専門的で最適化されたスペシャリストモデルと比較して,競争力のある結果が得られる。 コードも間もなくリリースされる予定だ。

Instance perception tasks (object detection, instance segmentation, pose estimation, counting) play a key role in industrial applications of visual models. As supervised learning methods suffer from high labeling cost, few-shot learning methods which effectively learn from a limited number of labeled examples are desired. Existing few-shot learning methods primarily focus on a restricted set of tasks, presumably due to the challenges involved in designing a generic model capable of representing diverse tasks in a unified manner. In this paper, we propose UniFS, a universal few-shot instance perception model that unifies a wide range of instance perception tasks by reformulating them into a dynamic point representation learning framework. Additionally, we propose Structure-Aware Point Learning (SAPL) to exploit the higher-order structural relationship among points to further enhance representation learning. Our approach makes minimal assumptions about the tasks, yet it achieves competitive results compared to highly specialized and well optimized specialist models. Codes will be released soon.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# 変圧器強化型モーションプランナ:状態決定のための注意誘導サンプリング

Transformer-Enhanced Motion Planner: Attention-Guided Sampling for State-Specific Decision Making ( http://arxiv.org/abs/2404.19403v1 )

ライセンス: Link先を確認
Lei Zhuang, Jingdong Zhao, Yuntao Li, Zichun Xu, Liangliang Zhao, Hong Liu, (参考訳) サンプリングベースのモーションプランニング(SBMP)アルゴリズムは、その堅牢なグローバル検索能力で有名である。 しかし、サンプリング機構に固有のランダム性は、しばしば不整合パスの品質と探索効率の制限をもたらす。 これらの課題に応えて、この研究は、環境情報セマンティックエンコーダ(EISE)と運動計画トランスフォーマー(MPT)を相乗化する、Transformer-Enhanced Motion Planner(TEMP)という、新しいディープラーニングベースのモーションプランニングフレームワークを提案する。 EISEは環境データをセマンティック環境情報(SEI)に変換し、MPTに豊かな環境理解を提供する。 MPTは、注意機構を利用して、SEI、タスク目標、過去の計画データを動的に再検討し、サンプリングノード生成を精査する。 TEMPの能力を示すために、RT*によって生成された計画結果からなるデータセットを用いてモデルを訓練する。 EISEとMPTは協調的に訓練され、EISEは環境データからパターンを自律的に学習し、抽出することができる。 続いて,TEMPの有効性を多種多様なタスク次元にわたって体系的に評価し,TEMPは,最先端のSBMPと比較して,例外的な性能指標と高い一般化度を達成できることを実証した。

Sampling-based motion planning (SBMP) algorithms are renowned for their robust global search capabilities. However, the inherent randomness in their sampling mechanisms often result in inconsistent path quality and limited search efficiency. In response to these challenges, this work proposes a novel deep learning-based motion planning framework, named Transformer-Enhanced Motion Planner (TEMP), which synergizes an Environmental Information Semantic Encoder (EISE) with a Motion Planning Transformer (MPT). EISE converts environmental data into semantic environmental information (SEI), providing MPT with an enriched environmental comprehension. MPT leverages an attention mechanism to dynamically recalibrate its focus on SEI, task objectives, and historical planning data, refining the sampling node generation. To demonstrate the capabilities of TEMP, we train our model using a dataset comprised of planning results produced by the RRT*. EISE and MPT are collaboratively trained, enabling EISE to autonomously learn and extract patterns from environmental data, thereby forming semantic representations that MPT could more effectively interpret and utilize for motion planning. Subsequently, we conducted a systematic evaluation of TEMP's efficacy across diverse task dimensions, which demonstrates that TEMP achieves exceptional performance metrics and a heightened degree of generalizability compared to state-of-the-art SBMPs.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# 量子安定化回路の簡易コンパイル法

A simple method for compiling quantum stabilizer circuits ( http://arxiv.org/abs/2404.19408v1 )

ライセンス: Link先を確認
Brendan Reid, (参考訳) 安定化回路は量子エラー訂正プロトコルにおいて重要な役割を担い、将来の量子ハードウェアにおけるフォールトトレランスの確保に不可欠である。 安定化回路はクリフォード生成集合 {H, S, CX} 上で定義されるが、これら全てのゲートは量子ハードウェアに固有のものではない。 そのため、それらはネイティブのゲートセットにコンパイルされなければならないが、ハードウェアのアーキタイプ間で重要な違いはネイティブの2つのキュービットゲートである。 ここではCliffordゲートコンパイルの直感的でアクセスしやすい方法を紹介する。 量子回路のコンパイルには複数のオープンソースソリューションが存在するが、それらは任意の量子ゲートで動作する。 自分自身をクリフォードゲートに制限することにより、コンパイルプロセスはほぼ簡単になり、大きな回路も手動でコンパイルできる。 2つのクリフォード回路がパウリを同値に共役すると、それらは同値である。 次にコンパイルを減らして、瞬間的なパウリ共役が各時間ステップで各キュービットに対して正しいことを保証する。 これはTableaux Manipulation(テーブルー・マニピュレーション)と呼ばれるもので、我々は正しいパウリの共役を保証するために、直接スタビライザー・テーブルーを尋問する。 直観を構築するためのいくつかの実例とともに、この過程を簡潔に説明し、最終的に大規模な回路をオープンソースソフトウェアにコンパイルするためのいくつかの比較結果を示し、この方法が最小数の量子ゲートを確実に採用することを強調した。

Stabilizer circuits play an important role in quantum error correction protocols, and will be vital for ensuring fault tolerance in future quantum hardware. While stabilizer circuits are defined on the Clifford generating set, {H, S, CX}, not all of these gates are native to quantum hardware. As such they must be compiled into the native gateset, with the key difference across hardware archetypes being the native two qubit gate. Here we introduce an intuitive and accessible method for Clifford gate compilation. While multiple open source solutions exist for quantum circuit compilation, these operate on arbitrary quantum gates. By restricting ourselves to Clifford gates, the compilation process becomes almost trivial and even large circuits can be compiled manually. The core idea is well known: if two Clifford circuits conjugate Paulis identically, they are equivalent. Compilation is then reduced to ensuring that the instantaneous Pauli conjugation is correct for each qubit at every timestep. This is Tableaux Manipulation, so called as we directly interrogate stabilizer tableaux to ensure correct Pauli conjugation. We provide a brief explanation of the process along with some worked examples to build intuition; we finally show some comparisons for compiling large circuits to open source software, and highlight that this method ensures a minimal number of quantum gates are employed.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# Demonstration-Guided Reinforcement Learning を用いた LLM の逆最適化

Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning ( http://arxiv.org/abs/2404.19409v1 )

ライセンス: Link先を確認
Mathieu Rita, Florian Strub, Rahma Chaabouni, Paul Michel, Emmanuel Dupoux, Olivier Pietquin, (参考訳) 強化学習(RL)は大規模言語モデル(LLM)のチューニングに不可欠であることが証明されているが、報酬過剰最適化(ROO)につながる可能性がある。 既存のアプローチは、計算に高価なハイパーパラメータチューニングを必要とするKL正規化を追加することでROOに対処している。 さらに、KL正規化は、正規化の潜在的な源である報酬関数自体を無視して、言語ポリシーの正規化にのみ焦点をあてる。 実演誘導RLに触発され,人間による実演と報酬モデルを利用して報酬目標を再検討するReward Calibration from Demonstration (RCfD)を紹介した。 形式的には、プロンプトが与えられた場合、RCfDの目的は、報酬関数を直接最大化するのではなく、デモとLLMの報酬の間の距離を最小化する。 この目的シフトは、報酬モデルを活用するためのLLMのインセンティブを回避し、より自然で多様な言語生成を促進する。 3つの言語タスクにおけるRCfDの有効性を示し、ROOを緩和しながら、注意深く調整されたベースラインに匹敵する性能を実現する。

While Reinforcement Learning (RL) has been proven essential for tuning large language models (LLMs), it can lead to reward over-optimization (ROO). Existing approaches address ROO by adding KL regularization, requiring computationally expensive hyperparameter tuning. Additionally, KL regularization focuses solely on regularizing the language policy, neglecting a potential source of regularization: the reward function itself. Inspired by demonstration-guided RL, we here introduce the Reward Calibration from Demonstration (RCfD), which leverages human demonstrations and a reward model to recalibrate the reward objective. Formally, given a prompt, the RCfD objective minimizes the distance between the demonstrations' and LLM's rewards rather than directly maximizing the reward function. This objective shift avoids incentivizing the LLM to exploit the reward model and promotes more natural and diverse language generation. We show the effectiveness of RCfD on three language tasks, which achieves comparable performance to carefully tuned baselines while mitigating ROO.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# 物理的バックドア:物理世界における温度に基づくバックドア攻撃に向けて

Physical Backdoor: Towards Temperature-based Backdoor Attacks in the Physical World ( http://arxiv.org/abs/2404.19417v1 )

ライセンス: Link先を確認
Wen Yin, Jian Lou, Pan Zhou, Yulai Xie, Dan Feng, Yuhua Sun, Tailai Zhang, Lichao Sun, (参考訳) バックドア攻撃は近年、可視光物体検出(VLOD)においてよく研究されている。 しかしながら、VLODは暗く温度に敏感なシナリオでは効果的に機能しない。 代わりに、熱赤外物体検出(TIOD)は、そのような環境において最もアクセスしやすく実用的なものである。 本稿では,TIODに関連するセキュリティ上の脆弱性をバックドア攻撃の文脈で調査し,デジタルと物理の両方の領域にまたがる。 本稿では,TIODに対する新たな2種類のバックドアアタックを紹介し,それぞれに特有の機能であるオブジェクト影響アタックとレンジ影響アタックの2つを紹介する。 我々は, 温度, サイズ, 材料, 隠蔽など, トリガ設計に影響を及ぼす重要な要因を包括的に分析する。 これらの因子、特に温度は、TIODに対するバックドア攻撃の有効性に大きな影響を及ぼした。 これらの要因の徹底的な理解は、物理的トリガーと温度制御実験を設計するための基礎となる。 本研究は,デジタル環境と物理環境の両方で実施される広範囲な実験を含む。 デジタル領域では、TIODのベンチマークデータセットを用いてアプローチを評価し、最大98.21%のアタック成功率(ASR)を達成する。 物理的領域では、私たちのアプローチを、熱赤外カメラを用いて、交通交差点と駐車場の2つの現実的な設定でテストする。 ここでは、最大98.38%のASRを得る。

Backdoor attacks have been well-studied in visible light object detection (VLOD) in recent years. However, VLOD can not effectively work in dark and temperature-sensitive scenarios. Instead, thermal infrared object detection (TIOD) is the most accessible and practical in such environments. In this paper, our team is the first to investigate the security vulnerabilities associated with TIOD in the context of backdoor attacks, spanning both the digital and physical realms. We introduce two novel types of backdoor attacks on TIOD, each offering unique capabilities: Object-affecting Attack and Range-affecting Attack. We conduct a comprehensive analysis of key factors influencing trigger design, which include temperature, size, material, and concealment. These factors, especially temperature, significantly impact the efficacy of backdoor attacks on TIOD. A thorough understanding of these factors will serve as a foundation for designing physical triggers and temperature controlling experiments. Our study includes extensive experiments conducted in both digital and physical environments. In the digital realm, we evaluate our approach using benchmark datasets for TIOD, achieving an Attack Success Rate (ASR) of up to 98.21%. In the physical realm, we test our approach in two real-world settings: a traffic intersection and a parking lot, using a thermal infrared camera. Here, we attain an ASR of up to 98.38%.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# スマートヘルスケアデバイスへのエネルギーサイバー攻撃:テストベッド

Energy Cyber Attacks to Smart Healthcare Devices: A Testbed ( http://arxiv.org/abs/2404.19418v1 )

ライセンス: Link先を確認
Zainab Alwaisi, Simone Soderi, Rocco De Nicola, (参考訳) モノのインターネット(IoT)は、人間の生活に大きな影響を与えるため、研究と産業の両方に大きな関心を集めている。 IoT技術の急速な拡大は、スマートヘルスケア、スマートデバイス、スマートシティ、スマートグリッドに根ざしている。 しかし、IoTデバイスのセキュリティ、特にヘルスケアにおいて、最近の攻撃で深刻な脆弱性が明らかになったことで、大きな関心事になっている。 IoTネットワークでは、接続デバイスがエネルギー消費攻撃などのリソース制約攻撃の影響を受けやすい場合、セキュリティが最重要となる。 本稿では、WiFi対応スマートヘルスケアデバイスに対するDDoS(Distributed Denial of Service)とFake Access Points(F-AP)攻撃の影響について検討する。 具体的には、これらの攻撃が、攻撃中のデバイス接続性とエネルギー消費に焦点を当てた、被害者デバイスやアクセスポイント(AP)のサービスを破壊する方法について調査する。 主な発見は、サービスを破壊するDDoS攻撃の攻撃率の特定と、スマートヘルスケアデバイスに対するEnergy Consumption Distributed Denial of Service(EC-DDoS)とF-AP攻撃のエネルギー消費への影響の定量化である。 この研究は、通信プロトコル、攻撃率、ペイロードサイズ、および犠牲者デバイスのポート状態が、エネルギー消費に影響を与える重要な要因であることを示している。 これらの洞察は、スマートヘルスケア環境におけるIoTデバイスの脆弱性の包括的理解を提供し、将来の防衛戦略の基礎となる。

The Internet of Things (IoT) has garnered significant interest in both research and industry due to its profound impact on human life. The rapid expansion of IoT technology has ushered in smart healthcare, smart devices, smart cities, and smart grids. However, the security of IoT devices, particularly in healthcare, has become a major concern, with recent attacks revealing serious vulnerabilities. In IoT networks, where connected devices are susceptible to resource-constraint attacks, such as energy consumption attacks, security is paramount. This paper explores the impact of Distributed Denial of Service (DDoS) and Fake Access Points (F-APs) attacks on WiFi-enabled smart healthcare devices. Specifically, it investigates how these attacks can disrupt service on victim devices and Access Points (APs), focusing on device connectivity and energy consumption during attacks. Key findings include identifying the attack rates of DDoS attacks that disrupt services and quantifying the energy consumption impact of Energy Consumption Distributed Denial of Service (EC-DDoS) and F-APs attacks on smart healthcare devices. The study highlights communication protocols, attack rates, payload sizes, and port states of victim devices as critical factors influencing energy consumption. These insights provide a comprehensive understanding of IoT device vulnerabilities in smart healthcare environments and lay the groundwork for future defense strategies.
翻訳日:2024-05-01 14:44:46 公開日:2024-04-30
# 時間対1スパイクニューラルネットワークにおける効率的な連続学習を可能にするアクティブデンドライト

Active Dendrites Enable Efficient Continual Learning in Time-To-First-Spike Neural Networks ( http://arxiv.org/abs/2404.19419v1 )

ライセンス: Link先を確認
Lorenzo Pes, Rick Luiken, Federico Corradi, Charlotte Frenkel, (参考訳) 人間の脳は、連続した情報のストリームから新しいタスクに効率的に適応するが、ニューラルネットワークモデルは、これまで学んだタスクを破滅的に忘れずに、シーケンシャルな情報から学ぶのに苦労する。 この制限は、情報が本質的にシーケンシャルな方法で提示される現実のシナリオにおいて、エッジデバイスをデプロイする上で大きなハードルとなる。 錐体ニューロンの活発な樹状突起は、新しいタスクを段階的に学習する脳の能力において重要な役割を担っている。 そこで本研究では, アクティブデンドライトを応用したスパイクニューラルネットワークモデルを提案する。 我々のモデルは、時間的に符号化されたSNNにおける破滅的な忘れを効果的に軽減し、Split MNISTデータセットを用いてテストセット上の88.3%のタスクで学習終了精度を実証する。 さらに、エッジデバイスでの現実的なデプロイメントを実現するための、新しいデジタルハードウェアアーキテクチャも提供しています。 Xilinx Zynq-7020 SoC FPGAを用いて、量子化されたソフトウェアモデルと100-%の一致を示し、平均推定時間は37.3ms、精度は80.0%である。

While the human brain efficiently adapts to new tasks from a continuous stream of information, neural network models struggle to learn from sequential information without catastrophically forgetting previously learned tasks. This limitation presents a significant hurdle in deploying edge devices in real-world scenarios where information is presented in an inherently sequential manner. Active dendrites of pyramidal neurons play an important role in the brain ability to learn new tasks incrementally. By exploiting key properties of time-to-first-spike encoding and leveraging its high sparsity, we present a novel spiking neural network model enhanced with active dendrites. Our model can efficiently mitigate catastrophic forgetting in temporally-encoded SNNs, which we demonstrate with an end-of-training accuracy across tasks of 88.3% on the test set using the Split MNIST dataset. Furthermore, we provide a novel digital hardware architecture that paves the way for real-world deployment in edge devices. Using a Xilinx Zynq-7020 SoC FPGA, we demonstrate a 100-% match with our quantized software model, achieving an average inference time of 37.3 ms and an 80.0% accuracy.
翻訳日:2024-05-01 14:44:45 公開日:2024-04-30
# 焦点を合わせよう:フェデレーション・トランスファー・ラーニングに対するバックドア・アタック

Let's Focus: Focused Backdoor Attack against Federated Transfer Learning ( http://arxiv.org/abs/2404.19420v1 )

ライセンス: Link先を確認
Marco Arazzi, Stefanos Koffas, Antonino Nocera, Stjepan Picek, (参考訳) フェデレート・トランスファー・ラーニング(Federated Transfer Learning, FTL)は、フェデレート・ラーニングの最も一般的なバリエーションである。 この分散パラダイムによると、機能学習の事前ステップは通常、公開共有データ上で、ひとつのパーティ(典型的にはサーバ)によって実行される。 その後、フェデレートラーニングフェーズが行われ、学習した特徴抽出器を使って分類器を協調的に訓練する。 それぞれのクライアントは、プライベートなトレーニングセット上の分類レイヤのみをローカルにトレーニングすることで貢献する。 FTLシナリオの特異性は、効果的なバックドアを構築するために中毒攻撃を開発できるかどうかを理解するのを困難にしている。 最先端の攻撃戦略は、信頼できないクライアントによって入力データに注入された偽トリガーによって導入された関連する特徴に対してモデル注意をシフトする可能性を前提としている。 もちろん、これはFTLでは実現できない。サーバが事前トレーニングのステップを実行したら、学習した機能が修正されるからだ。 そこで本稿では,eXplainable AI(XAI)とデータセット蒸留を組み合わせた脆弱性を識別し,活用するために,この興味深いフェデレーション学習シナリオについて検討する。 特に,提案攻撃は,FTLのフェデレートラーニングフェーズにおいて,XAIを介してトリガの最適なローカルを特定し,バックドアクラスの圧縮情報をカプセル化する。 その振る舞いから,本手法を焦点を絞ったバックドアアプローチ(FB-FTL,略してFB-FTL)と呼び,画像分類シナリオを明示的に参照することにより,その性能を検証した。 その結果、平均80%の攻撃成功率で、既存のフェデレート学習に対する攻撃の有効性が示された。

Federated Transfer Learning (FTL) is the most general variation of Federated Learning. According to this distributed paradigm, a feature learning pre-step is commonly carried out by only one party, typically the server, on publicly shared data. After that, the Federated Learning phase takes place to train a classifier collaboratively using the learned feature extractor. Each involved client contributes by locally training only the classification layers on a private training set. The peculiarity of an FTL scenario makes it hard to understand whether poisoning attacks can be developed to craft an effective backdoor. State-of-the-art attack strategies assume the possibility of shifting the model attention toward relevant features introduced by a forged trigger injected in the input data by some untrusted clients. Of course, this is not feasible in FTL, as the learned features are fixed once the server performs the pre-training step. Consequently, in this paper, we investigate this intriguing Federated Learning scenario to identify and exploit a vulnerability obtained by combining eXplainable AI (XAI) and dataset distillation. In particular, the proposed attack can be carried out by one of the clients during the Federated Learning phase of FTL by identifying the optimal local for the trigger through XAI and encapsulating compressed information of the backdoor class. Due to its behavior, we refer to our approach as a focused backdoor approach (FB-FTL for short) and test its performance by explicitly referencing an image classification scenario. With an average 80% attack success rate, obtained results show the effectiveness of our attack also against existing defenses for Federated Learning.
翻訳日:2024-05-01 14:44:45 公開日:2024-04-30
# InstantFamily:ゼロショットマルチID画像生成のためのマスク付き注意

InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation ( http://arxiv.org/abs/2404.19427v1 )

ライセンス: Link先を確認
Chanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek, (参考訳) パーソナライズされた画像生成の分野では、概念を保存するイメージを作成する能力が大幅に向上した。 複数の概念を結束的で視覚的に魅力的な構成に自然に統合するイメージを作ることは、確かに困難である。 本稿では、新しいマスク付きクロスアテンション機構とマルチモーダル埋め込みスタックを用いて、ゼロショットマルチID画像生成を実現する「InstantFamily」を提案する。 本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。 さらに,マスクを用いたクロスアテンション機構により,生成画像におけるマルチIDと合成の正確な制御が可能となった。 InstantFamilyの有効性は、よく知られたマルチID生成問題を解きながら、マルチIDによる画像生成において優位性を示す実験を通して実証する。 さらに,本モデルでは,シングルIDとマルチIDの保存において,最先端の性能を実現する。 さらに,本モデルでは,当初よりID保存量が多く,拡張性に優れていた。

In the field of personalized image generation, the ability to create images preserving concepts has significantly improved. Creating an image that naturally integrates multiple concepts in a cohesive and visually appealing composition can indeed be challenging. This paper introduces "InstantFamily," an approach that employs a novel masked cross-attention mechanism and a multimodal embedding stack to achieve zero-shot multi-ID image generation. Our method effectively preserves ID as it utilizes global and local features from a pre-trained face recognition model integrated with text conditions. Additionally, our masked cross-attention mechanism enables the precise control of multi-ID and composition in the generated images. We demonstrate the effectiveness of InstantFamily through experiments showing its dominance in generating images with multi-ID, while resolving well-known multi-ID generation problems. Additionally, our model achieves state-of-the-art performance in both single-ID and multi-ID preservation. Furthermore, our model exhibits remarkable scalability with a greater number of ID preservation than it was originally trained with.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# 量子力学から量子ソフトウェア工学へ

From Quantum Mechanics to Quantum Software Engineering ( http://arxiv.org/abs/2404.19428v1 )

ライセンス: Link先を確認
Giuseppe Bisicchia, Jose Garcia-Alonso, Juan M. Murillo, Antonio Brogi, (参考訳) ヴィクター・ヒューゴの時無き観察は「その時が来たアイデアよりも強力なものはない」であり、物理学者の夢に過ぎなかった量子コンピューティングは、世界を変える可能性を秘めている。 今日の注目の高まりを理解するためには、量子コンピューティングの誕生と成長の動機を掘り下げなければならない。 量子コンピューティングの過去が現在に関する洞察を提供する一方で、未来は量子ソフトウェア工学のレンズを通して広がる可能性がある。 量子ソフトウェア工学(Quantum Software Engineering)は、その原理と方法論によって導かれる、量子コンピュータと対話し、その真の可能性を解き明かし、新たな可能性の時代に利用するための最も効果的な方法を研究する。 本稿では,現在の展望を把握し,量子コンピューティングと量子ソフトウェア工学の軌跡を予見するため,今後の研究の方向性を概説する。

Victor Hugo's timeless observation, "Nothing is more powerful than an idea whose time has come", resonates today as Quantum Computing, once only a dream of a physicist, stands at the threshold of reality with the potential to revolutionise the world. To comprehend the surge of attention it commands today, one must delve into the motivations that birthed and nurtured Quantum Computing. While the past of Quantum Computing provides insights into the present, the future could unfold through the lens of Quantum Software Engineering. Quantum Software Engineering, guided by its principles and methodologies investigates the most effective ways to interact with Quantum Computers to unlock their true potential and usher in a new era of possibilities. To gain insight into the present landscape and anticipate the trajectory of Quantum Computing and Quantum Software Engineering, this paper embarks on a journey through their evolution and outlines potential directions for future research.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# Lancet: 全グラフ計算によるMixture-of-Expertsトレーニングの高速化

Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication Overlapping ( http://arxiv.org/abs/2404.19429v1 )

ライセンス: Link先を確認
Chenyu Jiang, Ye Tian, Zhen Jia, Shuai Zheng, Chuan Wu, Yida Wang, (参考訳) Mixture-of-Expert(MoE)技術は、DNNモデルパラメータのサイズを拡大する上で重要な役割を果たす。 しかし、トレーニングプロセス中に全通信遅延を拡張するという課題に直面している。 既存の手法は、全てを専門家の計算でオーバーラップすることでこの問題を緩和しようとする。 しかし、これらの手法は十分な重複を達成できず、結果として性能向上の可能性を制限することがしばしばある。 本研究では,より広いトレーニンググラフレベルでのオーバーラップを考慮し,この課題の範囲を広げる。 フォワードパスの間、注意深いパーティショニングとパイプライニングにより、MoE以外の計算とオール・ツー・オールのオーバーラップを可能にする。 後方通過では、勾配重み計算をスケジューリングすることで、全てと重なり合うことができる。 コンパイラをベースとした最適化により,MoEモデルトレーニングを自動的に強化するシステムであるLancetにこれらの手法を実装した。 広範に評価した結果,Lancetは重複しない通信に要する時間を最大77%削減できることがわかった。 さらに、最先端のソリューションに比べて最大1.3倍のスピードアップを実現している。

The Mixture-of-Expert (MoE) technique plays a crucial role in expanding the size of DNN model parameters. However, it faces the challenge of extended all-to-all communication latency during the training process. Existing methods attempt to mitigate this issue by overlapping all-to-all with expert computation. Yet, these methods frequently fall short of achieving sufficient overlap, consequently restricting the potential for performance enhancements. In our study, we extend the scope of this challenge by considering overlap at the broader training graph level. During the forward pass, we enable non-MoE computations to overlap with all-to-all through careful partitioning and pipelining. In the backward pass, we achieve overlap with all-to-all by scheduling gradient weight computations. We implement these techniques in Lancet, a system using compiler-based optimization to automatically enhance MoE model training. Our extensive evaluation reveals that Lancet significantly reduces the time devoted to non-overlapping communication, by as much as 77%. Moreover, it achieves a notable end-to-end speedup of up to 1.3 times when compared to the state-of-the-art solutions.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# 逆辞書作成のための定義埋め込みと意味探索

Sõnajaht: Definition Embeddings and Semantic Search for Reverse Dictionary Creation ( http://arxiv.org/abs/2404.19430v1 )

ライセンス: Link先を確認
Aleksei Dorkin, Kairit Sirts, (参考訳) 本稿では,最新の事前学習言語モデルと近接する近傍探索アルゴリズムを用いて,情報検索に基づく逆辞書システムを提案する。 提案手法は既存のエストニア語辞書リソースであるS\~onaveeb(ワードウェブ)に適用され,意味探索を利用した言語間逆辞書機能を導入し,拡張・強化することを目的としている。 このシステムの性能は、エストニア語とロシア語の翻訳を含むように拡張された、既存のラベル付き英語の単語と定義のデータセットと、同義関係を用いて語彙資源自体から評価データを抽出する新しいラベル付き評価アプローチの両方を用いて評価される。 評価結果は, モデル学習を伴わない情報検索に基づく意味探索手法が実現可能であり, 言語横断的な評価手法を用いて, 言語横断的な評価手法で, 言語横断的な評価手法で, 言語横断的な評価手法で, 言語横断的な評価手法で, 言語横断的な評価手法で, 言語横断的な評価手法で, 言語横断的な評価手法で, エストニア語を含む訓練データを用いて, 単言語的設定で1位と2位にランク付けできることを示す。

We present an information retrieval based reverse dictionary system using modern pre-trained language models and approximate nearest neighbors search algorithms. The proposed approach is applied to an existing Estonian language lexicon resource, S\~onaveeb (word web), with the purpose of enhancing and enriching it by introducing cross-lingual reverse dictionary functionality powered by semantic search. The performance of the system is evaluated using both an existing labeled English dataset of words and definitions that is extended to contain also Estonian and Russian translations, and a novel unlabeled evaluation approach that extracts the evaluation data from the lexicon resource itself using synonymy relations. Evaluation results indicate that the information retrieval based semantic search approach without any model training is feasible, producing median rank of 1 in the monolingual setting and median rank of 2 in the cross-lingual setting using the unlabeled evaluation approach, with models trained for cross-lingual retrieval and including Estonian in their training data showing superior performance in our particular task.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# 大規模言語モデルでは2と2を組み合わせられるか?

Can Large Language Models put 2 and 2 together? Probing for Entailed Arithmetical Relationships ( http://arxiv.org/abs/2404.19432v1 )

ライセンス: Link先を確認
D. Panas, S. Seth, V. Belle, (参考訳) 大規模言語モデルの時代における2つの主要な関心領域は、LLMが何を知っているのか、どのように、どのようにして推論できるのか(あるいは概ね理由)に関する疑問である。 これまで、これらの作業行は(例外を除いて)ほぼ平行に進行していましたが、私たちは交差点について調査することに興味があります。 この領域における性能の欠如を考慮し、様々な被験者の要素に関連する濃度(例えば、鳥の足の数と三輪車の車輪の数)の比較を非常に単純な設定で行う。 実験により,LSMは知識獲得と(疑似)新たなGPTリリースのそれぞれに一定の進展をみせるが,それらの能力は統計的推論に限られることが示された。 純粋統計学習は、多くの常識的推論タスク、特に算術的概念が関与すれば、組合せ的爆発に対処できるという主張は困難である。 さらに、より大きいものは必ずしも良くなく、純粋に統計的に改善を追求することは、真の推論能力による正しい回答の生成の危険な融合を悪化させるだけであるため、コアにおいて欠陥があると主張する。

Two major areas of interest in the era of Large Language Models regard questions of what do LLMs know, and if and how they may be able to reason (or rather, approximately reason). Since to date these lines of work progressed largely in parallel (with notable exceptions), we are interested in investigating the intersection: probing for reasoning about the implicitly-held knowledge. Suspecting the performance to be lacking in this area, we use a very simple set-up of comparisons between cardinalities associated with elements of various subjects (e.g. the number of legs a bird has versus the number of wheels on a tricycle). We empirically demonstrate that although LLMs make steady progress in knowledge acquisition and (pseudo)reasoning with each new GPT release, their capabilities are limited to statistical inference only. It is difficult to argue that pure statistical learning can cope with the combinatorial explosion inherent in many commonsense reasoning tasks, especially once arithmetical notions are involved. Further, we argue that bigger is not always better and chasing purely statistical improvements is flawed at the core, since it only exacerbates the dangerous conflation of the production of correct answers with genuine reasoning ability.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# スマートデバイスによるエネルギー消費サイバー攻撃の検出

Detection of Energy Consumption Cyber Attacks on Smart Devices ( http://arxiv.org/abs/2404.19434v1 )

ライセンス: Link先を確認
Zainab Alwaisi, Simone Soderi, Rocco De Nicola, (参考訳) モノのインターネット(IoT)技術の急速な発展に伴い、インテリジェントシステムは日々の生活や人々の家に統合されつつある。 しかし、これらの技術の普及により、スマートホームデバイスのセキュリティに対する懸念が高まっている。 これらのデバイスはリソースの制約に直面することが多く、信頼できないネットワークに接続し、処理するデータにリスクを及ぼすことがある。 IoTテクノロジのセキュリティは、センシティブなデータが関与しているため、極めて重要です。 現代のスマートホームでは、エネルギー攻撃の防止とIoTインフラストラクチャのセキュリティ確保が重要な課題である。 エネルギー消費のモニタリングは、異常な行動やIoTサイバー攻撃を検出する効果的なアプローチである。 軽量なアルゴリズムは、IoTデバイスのリソース制限を満たすために必要である。 本稿では,受信パケットを解析することにより,スマートホームデバイスに対するエネルギー消費攻撃を検出するための軽量な手法を提案する。 提案アルゴリズムでは,TCP,UDP,MQTTプロトコルに加えて,デバイスステータス(アイドル,アクティブ,アタック)も検討している。 リソースの制約を考慮し、攻撃を検出すると管理者に即座に警告する。 提案手法は,異なるプロトコルのパケット受信率を測定することにより,エネルギー消費攻撃を効果的に識別する。

With the rapid development of Internet of Things (IoT) technology, intelligent systems are increasingly integrating into everyday life and people's homes. However, the proliferation of these technologies raises concerns about the security of smart home devices. These devices often face resource constraints and may connect to unreliable networks, posing risks to the data they handle. Securing IoT technology is crucial due to the sensitive data involved. Preventing energy attacks and ensuring the security of IoT infrastructure are key challenges in modern smart homes. Monitoring energy consumption can be an effective approach to detecting abnormal behavior and IoT cyberattacks. Lightweight algorithms are necessary to accommodate the resource limitations of IoT devices. This paper presents a lightweight technique for detecting energy consumption attacks on smart home devices by analyzing received packets. The proposed algorithm considers TCP, UDP, and MQTT protocols, as well as device statuses (Idle, active, under attack). It accounts for resource constraints and promptly alerts administrators upon detecting an attack. The proposed approach effectively identifies energy consumption attacks by measuring packet reception rates for different protocols.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# 言語への神経ビジョン:非侵襲的脳記録による画像再構成と相互作用

Neuro-Vision to Language: Image Reconstruction and Interaction via Non-invasive Brain Recordings ( http://arxiv.org/abs/2404.19438v1 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Xiang He, Linghao Feng, Yiting Dong, Jihang Wang, Qian Zhang, Yi Zeng, (参考訳) 非侵襲的な脳記録の復号は、人間の認知の理解を促進する上で非常に重要であるが、個人差や複雑な神経信号の表現による課題に直面している。 従来の手法では、カスタムモデルと広範囲な試行が必要であり、視覚的再構成タスクでは解釈不可能である。 本研究では,視覚変換器3Dによる3次元脳構造と視覚的セマンティクスを統合した。 統合された特徴抽出器は、fMRI機能と複数のレベルの視覚的埋め込みを効率よく調整し、個別のモデルの必要性を排除し、単眼データからの抽出を可能にする。 この抽出器は、多レベル視覚機能を一つのネットワークに統合し、Large Language Models (LLMs)との統合を簡素化する。 さらに,マルチモーダル大規模モデル開発を支援するために,様々なfMRI画像関連テキストデータを用いてfMRIデータセットを拡張した。 LLMとの統合はデコード機能を強化し、ブレインキャプション、質問回答、詳細な説明、複雑な推論、視覚的再構成などのタスクを可能にする。 我々のアプローチは、これらのタスクに対して優れたパフォーマンスを示すだけでなく、脳信号内の言語に基づく概念を正確に識別し、操作し、解釈可能性を高め、より深いニューラルプロセスの洞察を提供する。 これらの進歩は、神経科学と人間とコンピュータの相互作用における非侵襲的な脳デコードの適用性を著しく拡大し、先進的な脳とコンピュータのインターフェースと認知モデルのためのステージを設定した。

Decoding non-invasive brain recordings is crucial for advancing our understanding of human cognition, yet faces challenges from individual differences and complex neural signal representations. Traditional methods require custom models and extensive trials, and lack interpretability in visual reconstruction tasks. Our framework integrating integrates 3D brain structures with visual semantics by Vision Transformer 3D. The unified feature extractor aligns fMRI features with multiple levels of visual embeddings efficiently, removing the need for individual-specific models and allowing extraction from single-trial data. This extractor consolidates multi-level visual features into one network, simplifying integration with Large Language Models (LLMs). Additionally, we have enhanced the fMRI dataset with various fMRI-image related textual data to support multimodal large model development. The integration with LLMs enhances decoding capabilities, enabling tasks like brain captioning, question-answering, detailed descriptions, complex reasoning, and visual reconstruction. Our approach not only shows superior performance across these tasks but also precisely identifies and manipulates language-based concepts within brain signals, enhancing interpretability and providing deeper neural process insights. These advances significantly broaden non-invasive brain decoding applicability in neuroscience and human-computer interaction, setting the stage for advanced brain-computer interfaces and cognitive models.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# グラフェン多層膜による非トンネル電子伝達における負の遷移時間

Negative transit time in non-tunneling electron transmission through graphene multilayers ( http://arxiv.org/abs/2404.19440v1 )

ライセンス: Link先を確認
E. E. Krasovskii, R. O. Kuzian, (参考訳) 原子薄結晶膜を透過する電子伝達のアト秒動力学は、散乱理論を用いて研究されている。 グラフェン多層膜を通した電子伝搬の時間的特性はバルクグラファイトのバンド構造に遡る: 禁止されたギャップでは、ウェーブパケット通過時間$\tau_\mathrm{T}$は厚さに飽和し、許容バンド$\tau_\mathrm{T}$は送信共鳴に続いて発振する。 面内散乱による未知の負の遷移時間は、グラフェン、h-BN、酸素の単層膜で見つかる。 さらに, 2次回折ビームの出現に伴う散乱共鳴において, Wigner time delayが分散することが判明した。 これにより、送信された強度を犠牲にすることなく、ウェーブパケットの伝搬タイミングを操作することができる。 共振器におけるウェーブパケットの空間的再構成は、表面の不均一な磁場によるストリーキングの詳細の解明に役立つ。

Attosecond dynamics of electron transmission through atomically-thin crystalline films is studied with an {\em ab initio} scattering theory. The temporal character of the electron propagation through graphene multilayers is traced to the band structure of bulk graphite: In the forbidden gaps the wave packet transit time $\tau_\mathrm{T}$ saturates with thickness and in the allowed bands $\tau_\mathrm{T}$ oscillates following transmission resonances. Hitherto unknown negative transit time due to in-plane scattering is discovered in monolayers of graphene, h-BN, and oxygen. Moreover, Wigner time delay is found to diverge at the scattering resonances caused by the emergence of secondary diffracted beams. This offers a way to manipulate the propagation timing of the wave packet without sacrificing the transmitted intensity. The spatial reshaping of the wave packet at the resonances may help elucidate details of the streaking by an inhomogeneous field at the surface.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# ナイジェリア・ピジンはジェネレーティブAIを話すのか?:多言語・低資源言語における代表性とバイアスの問題

Which Nigerian-Pidgin does Generative AI speak?: Issues about Representativeness and Bias for Multilingual and Low Resource Languages ( http://arxiv.org/abs/2404.19442v1 )

ライセンス: Link先を確認
David Ifeoluwa Adelani, A. Seza Doğruöz, Iyanuoluwa Shode, Anuoluwapo Aremu, (参考訳) ナイジャ(英: Naija)は、ナイジェリア・ピジン州で、アポックスによって話される言語である。 ナイジェリアでは1億2000万人が話者であり、混成言語(英語、ポルトガル語、先住民語など)である。 主に最近まで話し言葉だったが、現在ナイジャには2つのジャンル(BBCとウィキペディア)がある。 統計的分析と機械翻訳実験により、これらの2つのジャンルが互いに表現していないこと(すなわち、単語順と語彙の言語的差異がある)、生成AIはBBCのジャンルで書かれたナイジャに基づいてのみ動作することを証明した。 言い換えれば、ウィキペディアのジャンルで書かれたナイジャは生成AIでは表現されない。

Naija is the Nigerian-Pidgin spoken by approx. 120M speakers in Nigeria and it is a mixed language (e.g., English, Portuguese and Indigenous languages). Although it has mainly been a spoken language until recently, there are currently two written genres (BBC and Wikipedia) in Naija. Through statistical analyses and Machine Translation experiments, we prove that these two genres do not represent each other (i.e., there are linguistic differences in word order and vocabulary) and Generative AI operates only based on Naija written in the BBC genre. In other words, Naija written in Wikipedia genre is not represented in Generative AI.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# AnomalyXFusion:拡散を用いた多モード異常合成

AnomalyXFusion: Multi-modal Anomaly Synthesis with Diffusion ( http://arxiv.org/abs/2404.19444v1 )

ライセンス: Link先を確認
Jie Hu, Yawen Huang, Yilin Lu, Guoyang Xie, Guannan Jiang, Yefeng Zheng, (参考訳) 異常合成は、トレーニングのための異常サンプルを増強する有効な方法の1つである。 しかし、現在の異常合成法は、主に、合成された異常サンプルの忠実度を制限する入力としてのテクスチャ情報に依存している。 テクスチャ情報は、特に論理的異常に対して、異常のパターンを正しく表現するには不十分である。 この障害を克服するため、合成された異常サンプルの品質を高めるために多モード情報を利用するAnomalyXFusionフレームワークを提案する。 AnomalyXFusionフレームワークは、Multi-modal In-Fusion (MIF)モジュールとDynamic Dif-Fusion (DDF)モジュールの2つの異なる相乗的モジュールで構成されている。 MIFモジュールは、画像、テキスト、マスク機能を含むX埋め込みと呼ばれる、様々なモダリティ機能を統合された埋め込み空間に集約して統合することで、モダリティアライメントを洗練する。 同時に、DDFモジュールは拡散ステップに条件付きX埋め込みの適応調整により制御生成を容易にする。 さらに,AnomalyXFusionのマルチモーダル表現能力を明らかにするために,MVTec Captionと呼ばれる新しいデータセットを提案する。 より正確には、MVTec CaptionはMVTec ADとLOCOデータセットのための2.2kの正確な画像マスクテキストアノテーションを拡張する。 総合的な評価はAnomalyXFusionの有効性を示し、特に論理的異常に対する忠実度と多様性についてである。 プロジェクトページ:http:github.com/hujiecpp/MVTec-Caption

Anomaly synthesis is one of the effective methods to augment abnormal samples for training. However, current anomaly synthesis methods predominantly rely on texture information as input, which limits the fidelity of synthesized abnormal samples. Because texture information is insufficient to correctly depict the pattern of anomalies, especially for logical anomalies. To surmount this obstacle, we present the AnomalyXFusion framework, designed to harness multi-modality information to enhance the quality of synthesized abnormal samples. The AnomalyXFusion framework comprises two distinct yet synergistic modules: the Multi-modal In-Fusion (MIF) module and the Dynamic Dif-Fusion (DDF) module. The MIF module refines modality alignment by aggregating and integrating various modality features into a unified embedding space, termed X-embedding, which includes image, text, and mask features. Concurrently, the DDF module facilitates controlled generation through an adaptive adjustment of X-embedding conditioned on the diffusion steps. In addition, to reveal the multi-modality representational power of AnomalyXFusion, we propose a new dataset, called MVTec Caption. More precisely, MVTec Caption extends 2.2k accurate image-mask-text annotations for the MVTec AD and LOCO datasets. Comprehensive evaluations demonstrate the effectiveness of AnomalyXFusion, especially regarding the fidelity and diversity for logical anomalies. Project page: http:github.com/hujiecpp/MVTec-Caption
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# BB84量子鍵分配プロトコルのセキュリティに対するデコヒーレンスの影響

How decoherence affects the security of BB84 quantum key distribution protocol ( http://arxiv.org/abs/2404.19445v1 )

ライセンス: Link先を確認
Robert Okuła, Piotr Mironowicz, (参考訳) 本稿では、量子ダーウィン主義のメカニズムが、標準的なBB84量子鍵分配プロトコル(量子暗号シナリオのパラダイム的準備と測定)における情報の漏洩を可能にする方法について述べる。 我々はデコヒーレンス理論の枠組みの中で働き、量子ダーウィン論によって提供される測定のモデルを用いる。 本稿では,暗号鍵の秘密保持に要する結果について,量子計測プロセス中にどの程度の情報が漏洩し,その後,いわゆるVan Eckサイドチャネルワイヤタッピングを用いて,盗聴者によってその情報が得られたかを検討する。 また、周囲の環境を階層に整理する様々な方法、例えば、部屋などの部門が、環境内の量子情報の拡散とその相互作用に影響を及ぼし、潜在的な拡張のための場を築き、暗号装置のシールドの適切なエンジニアリングに関する洞察にどのように影響するかを示す。

We present how the mechanisms of quantum Darwinism allow for the leakage of information in the standard BB84 quantum key distribution protocol, a paradigmatic prepare and measure quantum cryptography scenario. We work within the decoherence theory framework and employ the model of measurements provided by quantum Darwinism. We investigate how much of the information about the results crucial for the cryptographic key to be kept secret is leaked during the quantum measurement process and subsequently how much of that information might be later obtained by an eavesdropper using a type of a so-called Van Eck side-channel wiretapping. We also show how the security can be affected by different ways of organizing the surrounding environment into layers, e.g. rooms or other divisions affecting the spread of quantum information in the environment and its interaction, paving a venue to potential enhancements, and insight into proper engineering of shieldings for cryptographical devices.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# ML対応システムの持続監視法 : コンセプトドリフト検出における精度とエネルギー効率のトレードオフ

How to Sustainably Monitor ML-Enabled Systems? Accuracy and Energy Efficiency Tradeoffs in Concept Drift Detection ( http://arxiv.org/abs/2404.19452v1 )

ライセンス: Link先を確認
Rafiullah Omar, Justus Bogner, Joran Leest, Vincenzo Stoico, Patricia Lago, Henry Muccini, (参考訳) 実運用環境にデプロイされるML対応システムは通常、概念ドリフト(概念ドリフト)によるモデル予測品質の低下、すなわち、ある実世界の領域の統計的特性の段階的な変化に悩まされる。 これに対抗するための簡単な解決策は、残念なことに大量のエネルギーを消費するMLモデルを定期的に再トレーニングすることだ。 エネルギー効率を改善するための1つの推奨戦術は、概念のドリフトのレベルを体系的に監視し、避けられないときにのみ再訓練することである。 しかし、これらの手法はエネルギーを消費するので、精度とエネルギー効率のトレードオフに対する具体的な影響はほとんどわかっていません。 そこで我々は,概念ドリフト検出のための7つの一般的な手法の精度とエネルギー効率のトレードオフについて,制御実験を行った。 我々は5つの合成データセットを使用し、それぞれに急速ドリフトのあるバージョンと漸進的なドリフトを持つバージョンを作成し、ベース分類器として6つの異なるMLモデルを訓練した。 フルファクター設計に基づいて420の組合せ(ドリフト検出器 * 7 データセット * 5 データセット * 2 種類のドリフト * 6 ベース分類器)を試験し、エネルギー消費とドリフト検出精度を比較した。 この結果は,3種類の検出器が存在することを示唆している。 a) 検出精度(KSWIN)のエネルギー効率を犠牲にする検出器 ロ 低-中エネルギーを高精度に消費する平衡検出器(HDDM_W、ADWIN)及び c) エネルギーをほとんど消費しないが、非常に精度の低い(HDDM_A, PageHinkley, DDM, EDDM)ために実際には使用できない検出器 本研究は,このエネルギー効率戦略の豊富な証拠を提供することにより,ML対応システムに最適なドリフト検出法を選択する上で,ML実践者を支援するものである。

ML-enabled systems that are deployed in a production environment typically suffer from decaying model prediction quality through concept drift, i.e., a gradual change in the statistical characteristics of a certain real-world domain. To combat this, a simple solution is to periodically retrain ML models, which unfortunately can consume a lot of energy. One recommended tactic to improve energy efficiency is therefore to systematically monitor the level of concept drift and only retrain when it becomes unavoidable. Different methods are available to do this, but we know very little about their concrete impact on the tradeoff between accuracy and energy efficiency, as these methods also consume energy themselves. To address this, we therefore conducted a controlled experiment to study the accuracy vs. energy efficiency tradeoff of seven common methods for concept drift detection. We used five synthetic datasets, each in a version with abrupt and one with gradual drift, and trained six different ML models as base classifiers. Based on a full factorial design, we tested 420 combinations (7 drift detectors * 5 datasets * 2 types of drift * 6 base classifiers) and compared energy consumption and drift detection accuracy. Our results indicate that there are three types of detectors: a) detectors that sacrifice energy efficiency for detection accuracy (KSWIN), b) balanced detectors that consume low to medium energy with good accuracy (HDDM_W, ADWIN), and c) detectors that consume very little energy but are unusable in practice due to very poor accuracy (HDDM_A, PageHinkley, DDM, EDDM). By providing rich evidence for this energy efficiency tactic, our findings support ML practitioners in choosing the best suited method of concept drift detection for their ML-enabled systems.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# 常微分方程式を解くための最適化ニューラルフォーム

Optimized neural forms for solving ordinary differential equations ( http://arxiv.org/abs/2404.19454v1 )

ライセンス: Link先を確認
Adam D. Kypriadis, Isaac E. Lagaris, Aristidis Likas, Konstantinos E. Parsopoulos, (参考訳) ニューラルネットワークを用いた常微分方程式の近似解における重要な問題は、境界条件や初期条件の正確な満足度である。 この目的のために、ニューラルネットワークに依存する機能表現、すなわち、設計によって所定の条件を正確に満たす機能表現が導入された。 先行する進歩により、本研究は3つの異なる側面に寄与する。 まず、最適化されたニューラルフォームを作るための新しいフォーマリズムを示す。 第二に、正確な解から絶対偏差の上限を確立する方法の概要を示す。 第三に、ノイマン条件やロビン条件の問題をパラメトリックディリクレ条件の等価問題に変換する手法を導入する。 提案した最適化されたニューラルフォームは、一階と二階の常微分方程式と一階のシステムを含む様々な問題に対して数値的に試験された。 剛性および遅延微分方程式も検討された。 得られた解は, ルンゲ・クッタ法を用いて得られる解と, 利用可能な正確な解とを比較した。 報告された結果と分析により、境界条件や初期条件の正確な満足度に加えて、最適化されたニューラルフォームは、優れた補間能力と制御可能な全体的な精度のクローズドフォームソリューションを提供することを確認した。

A critical issue in approximating solutions of ordinary differential equations using neural networks is the exact satisfaction of the boundary or initial conditions. For this purpose, neural forms have been introduced, i.e., functional expressions that depend on neural networks which, by design, satisfy the prescribed conditions exactly. Expanding upon prior progress, the present work contributes in three distinct aspects. First, it presents a novel formalism for crafting optimized neural forms. Second, it outlines a method for establishing an upper bound on the absolute deviation from the exact solution. Third, it introduces a technique for converting problems with Neumann or Robin conditions into equivalent problems with parametric Dirichlet conditions. The proposed optimized neural forms were numerically tested on a set of diverse problems, encompassing first-order and second-order ordinary differential equations, as well as first-order systems. Stiff and delay differential equations were also considered. The obtained solutions were compared against solutions obtained via Runge-Kutta methods and exact solutions wherever available. The reported results and analysis verify that in addition to the exact satisfaction of the boundary or initial conditions, optimized neural forms provide closed-form solutions of superior interpolation capability and controllable overall accuracy.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# 模倣学習: 学習方法, 環境, メトリクスに関する調査

Imitation Learning: A Survey of Learning Methods, Environments and Metrics ( http://arxiv.org/abs/2404.19456v1 )

ライセンス: Link先を確認
Nathan Gavenski, Odinaldo Rodrigues, Michael Luck, (参考訳) イミテーション・ラーニング(Imitation Learning)とは、エージェントが1人以上の教師のやり方を真似てタスクを実行する方法を学ぶアプローチである。 この学習アプローチは、新しいタスクを学ぶのに要する時間と、エージェントの教師のサンプルを集めるのに必要な労力の間に妥協をもたらす。 教師からの学習のバランスをとり、そのタスクの実行方法に関する情報を持ち、必要に応じてサンプルから逸脱する。 結果として、模倣学習の分野は近年、研究者から多くの注目を集め、多くの新しい手法や応用がもたらされた。 しかし、出版作業の増加と方法論を中心とした過去の調査により、この分野では標準化の欠如が顕著になった。 この非標準化は、2つの作品にしか現れない環境の使用において明らかであり、また、定性的分析のような評価過程は、現在の文献では稀である。 本調査では,現在の模倣学習文献を体系的にレビューし,その結果を提示する。 一 新たな分類法を導入して模擬学習の技法、環境及び計量を分類すること。 二 文学の主な問題点を反映したもの、及び 三 研究者に課題及び今後の方向性を提示すること。

Imitation learning is an approach in which an agent learns how to execute a task by trying to mimic how one or more teachers perform it. This learning approach offers a compromise between the time it takes to learn a new task and the effort needed to collect teacher samples for the agent. It achieves this by balancing learning from the teacher, who has some information on how to perform the task, and deviating from their examples when necessary, such as states not present in the teacher samples. Consequently, the field of imitation learning has received much attention from researchers in recent years, resulting in many new methods and applications. However, with this increase in published work and past surveys focusing mainly on methodology, a lack of standardisation became more prominent in the field. This non-standardisation is evident in the use of environments, which appear in no more than two works, and evaluation processes, such as qualitative analysis, that have become rare in current literature. In this survey, we systematically review current imitation learning literature and present our findings by (i) classifying imitation learning techniques, environments and metrics by introducing novel taxonomies; (ii) reflecting on main problems from the literature; and (iii) presenting challenges and future directions for researchers.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# 量子ネットワークにおけるGHZ状態分布のための簡易損失耐性プロトコル

Simple loss-tolerant protocol for GHZ-state distribution in a quantum network ( http://arxiv.org/abs/2404.19458v1 )

ライセンス: Link先を確認
Hikaru Shimizu, Wojciech Roga, David Elkouss, Masahiro Takeoka, (参考訳) 分散量子絡み合いは、量子デバイスを接続するネットワークの実現において重要な役割を果たす。 しかし、光子による遠方のノード間の絡み合いの共有は、リンクチャネルの避けられない損失のため、第一に難しいプロセスである。 本稿ではGreenberger-Horne-Zeilinger状態分布に対する単純な損失耐性プロトコルを提案する。 本研究では, 実測可能な実験条件下での分布速度を解析し, 直接伝送に対する速度損失スケーリングの利点を実証する。 我々のプロトコルは量子リピータを使用しず、現在の量子光学技術で実現可能である。 その結果、カンファレンスキーの合意や分散センシングといったタスクに直接適用できます。 さらに、表面符号のような分散量子誤り訂正符号の実装の要件を小さくする。

Distributed quantum entanglement plays a crucial role in realizing networks that connect quantum devices. However, sharing entanglement between distant nodes by means of photons is a challenging process primary due to unavoidable losses in the linking channels. In this paper, we propose a simple loss-tolerant protocol for the Greenberger-Horne-Zeilinger state distribution. We analyze the distribution rate under feasible experimental conditions and demonstrate the advantages of rate-loss scaling with respect to direct transmission. Our protocol does not use quantum repeaters and is achievable with current quantum optics technology. The result has direct application to tasks such as conference key agreement or distributed sensing. Moreover, it reduces the requirements for implementing distributed quantum error correction codes such as the surface code.
翻訳日:2024-05-01 14:34:58 公開日:2024-04-30
# AttackBench: 敵の例に対するグラディエントベースのアタックの評価

AttackBench: Evaluating Gradient-based Attacks for Adversarial Examples ( http://arxiv.org/abs/2404.19460v1 )

ライセンス: Link先を確認
Antonio Emanuele Cinà, Jérôme Rony, Maura Pintor, Luca Demetrio, Ambra Demontis, Battista Biggio, Ismail Ben Ayed, Fabio Roli, (参考訳) 逆例は一般的に勾配ベースの攻撃に最適化される。 新たな攻撃が継続的に提案されている一方で、各攻撃は、異なる実験設定、ハイパーパラメータ設定、ターゲットモデルに対する前方および後方呼び出しの数を用いて、前者よりも優れていることが示されている。 これは過度に最適化され、偏見のある評価を提供することで、ある特定の攻撃を他の攻撃に対して不公平に有利にする可能性がある。 本研究は,アタックベンチ(AttackBench)を提案することで,これらの制限を克服することを目的としている。 この目的のために、我々はまず勾配に基づく攻撃の分類を提案し、その主な構成要素と相違点を特定する。 次に、その有効性と効率を評価するフレームワークを紹介します。 これらの特性を計測する 一 攻撃が最適解にどの程度近いかを定量化する最適度計量を定義すること。 (ii) 与えられた最大クエリ予算内で全ての攻撃が比較されるように、前方および後方クエリの数をモデルに制限する。 我々の大規模な実験分析では、CIFAR-10とImageNetモデルに対して合計800以上の異なる構成を持つ100以上のアタック実装を比較しており、競合するアプローチよりも優れたアタックはごくわずかである。 この分析では、多くの攻撃によるより良いソリューションの発見や実行を妨げているいくつかの実装上の問題に光を当てました。 我々はAttackBenchを公開ベンチマークとしてリリースし、敵の例を最適化するための新しい勾配ベースの攻撃を含むように継続的に更新し、評価することを目的としている。

Adversarial examples are typically optimized with gradient-based attacks. While novel attacks are continuously proposed, each is shown to outperform its predecessors using different experimental setups, hyperparameter settings, and number of forward and backward calls to the target models. This provides overly-optimistic and even biased evaluations that may unfairly favor one particular attack over the others. In this work, we aim to overcome these limitations by proposing AttackBench, i.e., the first evaluation framework that enables a fair comparison among different attacks. To this end, we first propose a categorization of gradient-based attacks, identifying their main components and differences. We then introduce our framework, which evaluates their effectiveness and efficiency. We measure these characteristics by (i) defining an optimality metric that quantifies how close an attack is to the optimal solution, and (ii) limiting the number of forward and backward queries to the model, such that all attacks are compared within a given maximum query budget. Our extensive experimental analysis compares more than 100 attack implementations with a total of over 800 different configurations against CIFAR-10 and ImageNet models, highlighting that only very few attacks outperform all the competing approaches. Within this analysis, we shed light on several implementation issues that prevent many attacks from finding better solutions or running at all. We release AttackBench as a publicly available benchmark, aiming to continuously update it to include and evaluate novel gradient-based attacks for optimizing adversarial examples.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# データ効率の良い無線ネットワーク最適化のための連続モデルに基づく強化学習

Continual Model-based Reinforcement Learning for Data Efficient Wireless Network Optimisation ( http://arxiv.org/abs/2404.19462v1 )

ライセンス: Link先を確認
Cengis Hasan, Alexandros Agapitos, David Lynch, Alberto Castagna, Giorgio Cruciata, Hao Wang, Aleksandar Milenovic, (参考訳) 本稿では,新しい無線ネットワークサイトへのセルレベルパラメータ最適化ポリシの展開に必要なリードタイムの長大な問題点に対処する手法を提案する。 ドメインの専門家が提供したセルレベルの設定パラメータの重複部分集合で表される一連のアクション空間が与えられた場合、スループットの最適化を制御ポリシーの継続強化学習として定式化する。 シミュレーション結果から,本システムでは,再起動・再トレーニングベースラインに比べて,最適化率の低下を伴わずに,エンドツーエンドのデプロイメントリードタイムを2倍に短縮することが可能であることが示唆された。

We present a method that addresses the pain point of long lead-time required to deploy cell-level parameter optimisation policies to new wireless network sites. Given a sequence of action spaces represented by overlapping subsets of cell-level configuration parameters provided by domain experts, we formulate throughput optimisation as Continual Reinforcement Learning of control policies. Simulation results suggest that the proposed system is able to shorten the end-to-end deployment lead-time by two-fold compared to a reinitialise-and-retrain baseline without any drop in optimisation gain.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# 作業記憶負荷分類のためのベイズ関数接続性とグラフ畳み込みネットワーク

Bayesian Functional Connectivity and Graph Convolutional Network for Working Memory Load Classification ( http://arxiv.org/abs/2404.19467v1 )

ライセンス: Link先を確認
Harshini Gangapuram, Vidya Manian, (参考訳) 作業記憶に関連する脳反応は、異なる脳領域から発生し、異なる周波数で発振する。 高時間相関の脳波信号は、これらの応答を効果的に捉えることができる。 したがって、異なる周波数帯域におけるワーキングメモリプロトコルの脳波の機能的接続を推定することは、記憶と認知負荷を増大させて脳のダイナミクスを分析する上で重要な役割を担っている。 本研究では,センサ空間における脳波の機能的接続を学習するためのベイズ構造学習アルゴリズムを提案する。 次に、機能接続グラフをグラフ畳み込みネットワークへの入力として、作業メモリ負荷を分類する。 6つの異なる作業記憶負荷に対して154名の被験者に対して実施した対象内分類は,96%,平均分類精度89%であり,文献で提案された最先端分類モデルよりも優れていた。 さらに,提案したベイズ構造学習アルゴリズムは,分散の物体間および物体内統計解析を通じて,最先端の機能的接続推定手法と比較した。 また,αバンドとthetaバンドの分類精度はβバンドよりも良好であった。

Brain responses related to working memory originate from distinct brain areas and oscillate at different frequencies. EEG signals with high temporal correlation can effectively capture these responses. Therefore, estimating the functional connectivity of EEG for working memory protocols in different frequency bands plays a significant role in analyzing the brain dynamics with increasing memory and cognitive loads, which remains largely unexplored. The present study introduces a Bayesian structure learning algorithm to learn the functional connectivity of EEG in sensor space. Next, the functional connectivity graphs are taken as input to the graph convolutional network to classify the working memory loads. The intrasubject (subject-specific) classification performed on 154 subjects for six different verbal working memory loads produced the highest classification accuracy of 96% and average classification accuracy of 89%, outperforming state-of-the-art classification models proposed in the literature. Furthermore, the proposed Bayesian structure learning algorithm is compared with state-of-the-art functional connectivity estimation methods through intersubject and intrasubject statistical analysis of variance. The results also show that the alpha and theta bands have better classification accuracy than the beta band.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# 複数のクナップサック問題を解くための量子緩和

Quantum Relaxation for Solving Multiple Knapsack Problems ( http://arxiv.org/abs/2404.19474v1 )

ライセンス: Link先を確認
Yan Jin, Monit Sharma, Hoong Chuin Lau, Rudy Raymond, (参考訳) 組合せ問題はビジネスにおいて共通の課題であり、特定の制約の下で最適なソリューションを見つける必要がある。 QAOAのような変分的アプローチでは大きな進歩があったが、ほとんどの問題は制約がない(Max-Cutなど)。 本研究では,制約付き最適化問題,特に金融・サプライチェーンアプリケーションで頻繁に発生するknapsack制約に対するハイブリッド量子古典法について検討する。 提案手法は、可換写像によって定義される局所量子ハミルトンへの緩和に第一に依存する。 量子ランダムアクセスコード(QRAC)の概念、特に量子ランダムアクセス最適化(QRAO)からインスピレーションを得て、大きな制約付き最適化問題の解決におけるQRAOの可能性を探る。 制約に対処し、スケーラビリティにさらに対処するための事前解決メカニズムとして、線形緩和のような古典的なテクニックを採用しています。 提案手法をQAOAと比較し,実世界の調達最適化問題の最終的な結果を示す。

Combinatorial problems are a common challenge in business, requiring finding optimal solutions under specified constraints. While significant progress has been made with variational approaches such as QAOA, most problems addressed are unconstrained (such as Max-Cut). In this study, we investigate a hybrid quantum-classical method for constrained optimization problems, particularly those with knapsack constraints that occur frequently in financial and supply chain applications. Our proposed method relies firstly on relaxations to local quantum Hamiltonians, defined through commutative maps. Drawing inspiration from quantum random access code (QRAC) concepts, particularly Quantum Random Access Optimizer (QRAO), we explore QRAO's potential in solving large constrained optimization problems. We employ classical techniques like Linear Relaxation as a presolve mechanism to handle constraints and cope further with scalability. We compare our approach with QAOA and present the final results for a real-world procurement optimization problem: a significant sized multi-knapsack-constrained problem.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# TwinDiffusion:拡散モデルを用いたパノラマ画像生成におけるコヒーレンスと効率の向上

TwinDiffusion: Enhancing Coherence and Efficiency in Panoramic Image Generation with Diffusion Models ( http://arxiv.org/abs/2404.19475v1 )

ライセンス: Link先を確認
Teng Zhou, Yongchuan Tang, (参考訳) 拡散モデルは、多種多様な高品質なコンテンツを生成する効果的なツールとして登場した。 しかし、特にパノラマ画像の高解像度画像生成におけるそれらの能力は、目に見えるシームや不整合遷移といった課題に直面している。 本稿では,品質向上のためのクロップフュージョンと効率最適化のためのクロスサンプリングという,これらの課題に対処するための最適化フレームワークであるTwinDiffusionを提案する。 本研究では,隣接する画像領域の類似性を改善するためのトレーニング不要最適化ステージと,収穫過程中に動的パッチを出力するインターリーブサンプリング戦略を導入する。 TwinDiffusionと既存の手法を比較し,コヒーレンス,忠実度,適合性,効率性などの要因を考慮した総合評価を行った。 その結果、シームレスでコヒーレントなパノラマ生成における我々のアプローチの優れた性能を示し、パノラマ画像生成のための新しい品質と効率の基準を設定した。

Diffusion models have emerged as effective tools for generating diverse and high-quality content. However, their capability in high-resolution image generation, particularly for panoramic images, still faces challenges such as visible seams and incoherent transitions. In this paper, we propose TwinDiffusion, an optimized framework designed to address these challenges through two key innovations: Crop Fusion for quality enhancement and Cross Sampling for efficiency optimization. We introduce a training-free optimizing stage to refine the similarity of the adjacent image areas, as well as an interleaving sampling strategy to yield dynamic patches during the cropping process. A comprehensive evaluation is conducted to compare TwinDiffusion with the existing methods, considering factors including coherence, fidelity, compatibility, and efficiency. The results demonstrate the superior performance of our approach in generating seamless and coherent panoramas, setting a new standard in quality and efficiency for panoramic image generation.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# 量子検索のグローバルフェイズ:もう1つ、溶接した木の問題

Global Phase Helps in Quantum Search: Yet Another Look at the Welded Tree Problem ( http://arxiv.org/abs/2404.19476v1 )

ライセンス: Link先を確認
Aleksandrs Belovs, (参考訳) これまでのところ、指数的な量子スピードアップは比較的少ない。 そのうちの溶接木問題(Childs, Cleve, Deotto, Farhi, Gutmann, Spielman'2003)は、指数的なスピードアップが量子ウォークによって達成される特異な例の1つである。 本稿では、電気量子ウォークフレームワークの簡単な修正に基づく離散時間量子ウォークにより、この問題に対する最適線形打撃時間の非常に短い証明を与える。 同じ手法が他の1次元階層グラフにも適用でき、結果は (Balasubramanian, Li, and Harrow'2023) に類似している。

Up to now, relatively few exponential quantum speed-ups have been achieved. Out of them, the welded tree problem (Childs, Cleve, Deotto, Farhi, Gutmann, and Spielman'2003) is one of the unusual examples, as the exponential speed-up is attained by a quantum walk. In this paper, we give a very short proof of the optimal linear hitting time for this problem by a discrete-time quantum walk, which is based on a simple modification of the electric quantum walk framework. The same technique can be applied to other 1-dimensional hierarchical graphs, yielding results similar to (Balasubramanian, Li, and Harrow'2023).
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# IoEシステムにおけるメモリ使用量攻撃の軽減と解析

Mitigating and Analysis of Memory Usage Attack in IoE System ( http://arxiv.org/abs/2404.19480v1 )

ライセンス: Link先を確認
Zainab Alwaisi, Simone Soderi, Rocco De Nicola, (参考訳) インターネット・オブ・エコノミクス(IoE)は、特に家庭における新しいトレンドである。 スマートホームへのマーケティング力も、家庭内のIoEデバイスの普及を加速している。 これらのスマートデバイスが急速に普及するリスクは、エンドユーザのプライバシーとセキュリティを保護するためのコントロールが欠如していることにある。 今日では、スマートホームは、例えば、商業、オフィス施設、アパート、コテージ、そして主に自動化された複合施設、例えば、商業、工業の複合施設といった、小さなシステムの基本的生命維持プロセスを管理するシステムである。 現代のスマートホームの概念によって解決すべき重要な課題の1つは、IoEリソースの使用を防止することである。 最近、消費者向けIoEデバイスに対する攻撃が急速に増加している。 メモリ破損の脆弱性は、攻撃者がシステム全体を制御できるソフトウェアセキュリティにおいて、重大な種類の脆弱性を構成する。 IoEファームウェアにはすでに多くのメモリ破損の脆弱性が見つかっている。 本稿では,攻撃の動的解析を支援するために,資源利用状況の分析と説明を行い,低コストなシミュレーション環境を構築することを目的とする。 さらに、CPUやメモリ利用などのリソース制約のあるIoEデバイス上で、リソース消費を計測しながら、制御されたリソース利用攻撃を行う。 また、IoE環境におけるメモリ使用量攻撃を検出するための軽量なアルゴリズムを構築した。 その結果、侵入者が攻撃を開始して停止したことを検知することで、メモリ使用量攻撃を検知・緩和する効率が向上した。

Internet of Everything (IoE) is a newly emerging trend, especially in homes. Marketing forces toward smart homes are also accelerating the spread of IoE devices in households. An obvious risk of the rapid adoption of these smart devices is that many lack controls for protecting the privacy and security of end users from attacks designed to disrupt lives and incur financial losses. Today the smart home is a system for managing the basic life support processes of both small systems, e.g., commercial, office premises, apartments, cottages, and largely automated complexes, e.g., commercial and industrial complexes. One of the critical tasks to be solved by the concept of a modern smart home is the problem of preventing the usage of IoE resources. Recently, there has been a rapid increase in attacks on consumer IoE devices. Memory corruption vulnerabilities constitute a significant class of vulnerabilities in software security through which attackers can gain control of an entire system. Numerous memory corruption vulnerabilities have been found in IoE firmware already deployed in the consumer market. This paper aims to analyze and explain the resource usage attack and create a low-cost simulation environment to aid in the dynamic analysis of the attack. Further, we perform controlled resource usage attacks while measuring resource consumption on resource-constrained victims' IoE devices, such as CPU and memory utilization. We also build a lightweight algorithm to detect memory usage attacks in the IoE environment. The result shows high efficiency in detecting and mitigating memory usage attacks by detecting when the intruder starts and stops the attack.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# Specstator: スペックル統計に基づく眼科手術用iOCTセグメンテーションネットワーク

SpecstatOR: Speckle statistics-based iOCT Segmentation Network for Ophthalmic Surgery ( http://arxiv.org/abs/2404.19481v1 )

ライセンス: Link先を確認
Kristina Mach, Hessam Roodaki, Michael Sommersperger, Nassir Navab, (参考訳) 本稿では,眼科手術における術中オプティカルコヒーレンス・トモグラフィ(iOCT)画像セグメンテーションへの革新的アプローチを提案する。 以上の結果より,網膜内および網膜層および手術器具のスペックルパターンが統計的に異なっており,手動ラベリングを必要とせず,これまで見られなかったデータのセグメンテーションを容易にすることが示唆された。 この研究は、様々な統計分布をiOCTデータに当てはめ、異なる眼構造と手術器具の区別を可能にする。 提案したセグメンテーションモデルは, 組織理解に基づく統計的知見を洗練し, 統計的および生物学的知識を活用することを目的としている。 統計パラメーターの組み込み、光対相互作用の物理的解析、生物学的構造によって情報を得る深層学習はセグメンテーションの精度を高め、眼科手術におけるリアルタイムな応用に潜在的に有益である。 本研究は,ガンマ分布パラメータと導出したバイナリマップをセグメンテーションの唯一の入力として用いることの適応性と精度を実証する。

This paper presents an innovative approach to intraoperative Optical Coherence Tomography (iOCT) image segmentation in ophthalmic surgery, leveraging statistical analysis of speckle patterns to incorporate statistical pathology-specific prior knowledge. Our findings indicate statistically different speckle patterns within the retina and between retinal layers and surgical tools, facilitating the segmentation of previously unseen data without the necessity for manual labeling. The research involves fitting various statistical distributions to iOCT data, enabling the differentiation of different ocular structures and surgical tools. The proposed segmentation model aims to refine the statistical findings based on prior tissue understanding to leverage statistical and biological knowledge. Incorporating statistical parameters, physical analysis of light-tissue interaction, and deep learning informed by biological structures enhance segmentation accuracy, offering potential benefits to real-time applications in ophthalmic surgical procedures. The study demonstrates the adaptability and precision of using Gamma distribution parameters and the derived binary maps as sole inputs for segmentation, notably enhancing the model's inference performance on unseen data.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# FactCheck Editor: エンドツーエンドのファクトチェックを備えた多言語テキストエディタ

FactCheck Editor: Multilingual Text Editor with End-to-End fact-checking ( http://arxiv.org/abs/2404.19482v1 )

ライセンス: Link先を確認
Vinay Setty, (参考訳) 本稿では,ファクトチェックと正しい事実不正確さの自動化を目的とした,高度なテキストエディタである「FactCheck Editor」を紹介する。 誤報が広まっており、コンテンツクリエーターが意図しない誤りを犯すことも多いことから、当社のツールはこの問題に対処することを目指している。 90以上の言語をサポートし、トランスフォーマーモデルを使用して、人間の労働集約的な事実検証を支援する。 このデモでは、検証が必要なテキストクレームを検出し、関連する検索エンジンクエリを生成し、Webから適切なドキュメントを検索する、完全なワークフローが紹介されている。 自然言語推論(NLI)を用いてクレームの正確性を予測し、LCMを使って証拠を要約し、テキストの誤りを訂正するためのテキスト修正を提案する。 さらに,クレーム検出および妥当性評価に使用されるモデルの有効性を複数の言語で評価した。

We introduce 'FactCheck Editor', an advanced text editor designed to automate fact-checking and correct factual inaccuracies. Given the widespread issue of misinformation, often a result of unintentional mistakes by content creators, our tool aims to address this challenge. It supports over 90 languages and utilizes transformer models to assist humans in the labor-intensive process of fact verification. This demonstration showcases a complete workflow that detects text claims in need of verification, generates relevant search engine queries, and retrieves appropriate documents from the web. It employs Natural Language Inference (NLI) to predict the veracity of claims and uses LLMs to summarize the evidence and suggest textual revisions to correct any errors in the text. Additionally, the effectiveness of models used in claim detection and veracity assessment is evaluated across multiple languages.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# コンピューティングがもっと必要になる

More Compute Is What You Need ( http://arxiv.org/abs/2404.19484v1 )

ライセンス: Link先を確認
Zhen Guo, (参考訳) 大規模言語モデルの事前トレーニングはますます高価になり、ほとんどの実践者は、モデルサイズとトレーニングトークン(一般にCompute-OptimalまたはChinchilla Optimalと呼ばれる)の計算予算を割り当てるために、スケーリング法に頼っている。 本稿では,モデルサイズとデータセットサイズに対する特定の割り当てに依存しない,トランスフォーマーモデルに費やされる計算量に大きく依存する,モデル性能の新たなスケーリング法則を仮定する。 この統合スケーリング法則を用いることで、私たちはそれを予測します。 (a)推論効率において、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきである。 b) 利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善する唯一の方法かもしれない。

Large language model pre-training has become increasingly expensive, with most practitioners relying on scaling laws to allocate compute budgets for model size and training tokens, commonly referred to as Compute-Optimal or Chinchilla Optimal. In this paper, we hypothesize a new scaling law that suggests model performance depends mostly on the amount of compute spent for transformer-based models, independent of the specific allocation to model size and dataset size. Using this unified scaling law, we predict that (a) for inference efficiency, training should prioritize smaller model sizes and larger training datasets, and (b) assuming the exhaustion of available web datasets, scaling the model size might be the only way to further improve model performance.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# 論理的表現力によるIID緩和--ニューロシンボリック要求に論理を適合させる研究の先駆者-

IID Relaxation by Logical Expressivity: A Research Agenda for Fitting Logics to Neurosymbolic Requirements ( http://arxiv.org/abs/2404.19485v1 )

ライセンス: Link先を確認
Maarten C. Stol, Alessandra Mileo, (参考訳) ニューロシンボリックな背景知識とそのロジックに必要な表現力は、データの独立性と識別分布に関する機械学習の仮定を破る可能性がある。 本稿では、異なるユースケース要件に適合する論理の階層構造において、IDD緩和を解析することを提案する。 ニューロシンボリック・ユース・ケースにおいて、既知のデータ依存と分布制約を利用する利点について論じ、この知識に必要な表現性は、基礎となるMLルーチンの設計に影響を及ぼすと論じる。 これは、ニューロシンボリックな背景知識と、その論理に必要とされる表現性に関する一般的な疑問を伴う新しい研究課題を開く。

Neurosymbolic background knowledge and the expressivity required of its logic can break Machine Learning assumptions about data Independence and Identical Distribution. In this position paper we propose to analyze IID relaxation in a hierarchy of logics that fit different use case requirements. We discuss the benefits of exploiting known data dependencies and distribution constraints for Neurosymbolic use cases and argue that the expressivity required for this knowledge has implications for the design of underlying ML routines. This opens a new research agenda with general questions about Neurosymbolic background knowledge and the expressivity required of its logic.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# 敏感なドメイン内データによる安全なトレーニング: リンク攻撃の軽減にデータフラグメンテーションを活用する

Safe Training with Sensitive In-domain Data: Leveraging Data Fragmentation To Mitigate Linkage Attacks ( http://arxiv.org/abs/2404.19486v1 )

ライセンス: Link先を確認
Mariia Ignashina, Julia Ive, (参考訳) 現在のテキスト生成モデルは、秘密の患者情報などの機密情報を含む可能性がある実データを用いて訓練されている。 記憶したトレーニングデータの特定の条件下では、センシティブなデータを露出してトリガーすることができる。 このリスクを緩和するために、完全テキストの代わりにランダムにグループ化されたドメイン固有の短いフレーズの形で断片化されたデータを見る安全な代替案を提案する。 したがって、個人を再識別できるテキストフラグメントは、1つのシーケンスでモデルによって複製できないため、リンク攻撃に対してかなりの保護を与える。 我々は、意味のある構文的チャンクを用いて、最先端のLLMをいくつか微調整し、その有用性を探求する。 特に、BERTモデルを用いて2つの心臓血管診断を予測した。 本研究は,LLMが事前学習した知識の恩恵を受ける能力を示し,完全学習データに匹敵する断片化データを用いて微調整を行った場合の分類結果を提供する。

Current text generation models are trained using real data which can potentially contain sensitive information, such as confidential patient information and the like. Under certain conditions output of the training data which they have memorised can be triggered, exposing sensitive data. To mitigate against this risk we propose a safer alternative which sees fragmented data in the form of domain-specific short phrases randomly grouped together shared instead of full texts. Thus, text fragments that could re-identify an individual cannot be reproduced by the model in one sequence, giving significant protection against linkage attacks. We fine-tune several state-of-the-art LLMs using meaningful syntactic chunks to explore their utility. In particular, we fine-tune BERT-based models to predict two cardiovascular diagnoses. Our results demonstrate the capacity of LLMs to benefit from the pre-trained knowledge and deliver classification results when fine-tuned with fragmented data comparable to fine-tuning with full training data.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# 交換アルゴリズムによる微細グレーディカーネルモデル

Finetuning greedy kernel models by exchange algorithms ( http://arxiv.org/abs/2404.19487v1 )

ライセンス: Link先を確認
Tizian Wenzel, Armin Iske, (参考訳) カーネルベースの近似は高次元近似のための多用途ツールを提供し、特に代理モデリングに利用することができる。 この目的のために、"結び目挿入"と"結び目除去"の両方のアプローチは、スパースだが正確なカーネルモデルを得るために、データの適切なサブセットを選択することを目的としている。 本研究は,カーネルベース補間に着目し,最終的なカーネルモデルの計算複雑性を増大させることなく,これらの2つのアプローチを組み合わせることにより,カーネルモデルの精度をさらに向上することを目的としている。 本稿では,カーネル交換アルゴリズム(KEA)のクラスを紹介する。 結果として得られたKEAアルゴリズムは、グレーディカーネルサロゲートモデルを微調整するために使用することができ、実験で最大86.4% (17.2%)の誤差を低減できる。

Kernel based approximation offers versatile tools for high-dimensional approximation, which can especially be leveraged for surrogate modeling. For this purpose, both "knot insertion" and "knot removal" approaches aim at choosing a suitable subset of the data, in order to obtain a sparse but nevertheless accurate kernel model. In the present work, focussing on kernel based interpolation, we aim at combining these two approaches to further improve the accuracy of kernel models, without increasing the computational complexity of the final kernel model. For this, we introduce a class of kernel exchange algorithms (KEA). The resulting KEA algorithm can be used for finetuning greedy kernel surrogate models, allowing for an reduction of the error up to 86.4% (17.2% on average) in our experiments.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# 量子デコヒーレンスと弱-強測定遷移の関係に関する理論的研究

Theoretical investigation of the relations between quantum decoherence and weak-to-strong measurement transition ( http://arxiv.org/abs/2404.19488v1 )

ライセンス: Link先を確認
Xiao-Feng Song, Shuang Liu, Xi-Hao Chen, Yusuf Turek, (参考訳) 本稿では、ポインタ誘起量子デコヒーレンスの重要な側面と、フォン・ノイマンの射影強い測定とアハロノフの弱い測定との遷移について述べる。 どちらの現象も量子計測過程の動的理解に大きな影響を及ぼす。 具体的には,量子デコヒーレンスと弱い測定から強い測定への遷移の相互作用に着目し,一般モデルにおける量子デコヒーレンスと弱い測定から強い測定への遷移因子を推定・比較し,よく知られたStern-Gerlach実験を例に挙げる。 その結果,両現象は,システムと測定装置の結合に複雑に結びついている普遍的遷移因子によって効果的に特徴づけられることが明らかとなった。 解析により、量子デコヒーレンスと弱い測定と弱い対強い測定遷移の関係のメカニズムを明らかにすることができる。

This paper delves into the crucial aspects of pointer-induced quantum decoherence and the transition between von Neumann's projective strong measurement and Aharonov's weak measurement. Both phenomena significantly impact the dynamical understanding of quantum measurement processes. Specifically, we focus on the interplay between quantum decoherence and the transition from weak to strong measurement by deducing and comparing the quantum decoherence and weak-to-strong measurement transition factors within a general model and using the well-known Stern-Gerlach experiment as an illustrative example. Our findings reveal that both phenomena can be effectively characterized by a universal transition factor intricately linked to the coupling between the system and the measurement apparatus. The analysis presented can clarify the mechanism behind the relations of quantum decoherence to the weak measurement and weak-to-strong measurement transition.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# EvGNN:エッジビジョンのためのイベント駆動型グラフニューラルネットワークアクセラレータ

EvGNN: An Event-driven Graph Neural Network Accelerator for Edge Vision ( http://arxiv.org/abs/2404.19489v1 )

ライセンス: Link先を確認
Yufeng Yang, Adrian Kneip, Charlotte Frenkel, (参考訳) センサーと組込み処理を組み合わせたエッジビジョンシステムは、クラウドに依存しない低レイテンシ、分散化、エネルギー効率のソリューションを約束する。 従来のフレームベースの視覚センサとは対照的に、イベントベースのカメラは、情報符号化の少ないマイクロ秒スケールの時間分解能を提供し、エッジビジョンシステムにおける新たな機会を概説する。 しかし、主に畳み込みニューラルネットワーク(CNN)に依存しているフレームベースのビジョンの主流のアルゴリズムは、一般的に密度の高い行列ベクトル乗法に最適化されているため、イベントベースのビジョンの利点をほとんど活用できない。 イベント駆動グラフニューラルネットワーク(GNN)は最近、スパースイベントベースのビジョンのための有望なソリューションとして登場したが、その不規則な構造は、現在、効率的なハードウェアアクセラレータの設計を妨げる課題である。 本稿では,イベントベースカメラを用いた低フットプリント,超低レイテンシ,高精度エッジビジョンのための,最初のイベント駆動型GNNアクセラレータであるEvGNNを提案する。 それは三つの中心的な考えに依存している。 (i)エッジフリーストレージを持つシングルホップノードを利用する動的グラフ。 二 時空間分離探索範囲内の近隣住民の効率的な識別のためのイベントキュー及び 3)多層GNNの低レイテンシ実行を可能にする新しい層並列処理方式。 我々は,Xilinx KV260 Ultrascale+ MPSoCプラットフォーム上にEvGNNをデプロイし,認識のためのN-CARSデータセット上でベンチマークを行った。

Edge vision systems combining sensing and embedded processing promise low-latency, decentralized, and energy-efficient solutions that forgo reliance on the cloud. As opposed to conventional frame-based vision sensors, event-based cameras deliver a microsecond-scale temporal resolution with sparse information encoding, thereby outlining new opportunities for edge vision systems. However, mainstream algorithms for frame-based vision, which mostly rely on convolutional neural networks (CNNs), can hardly exploit the advantages of event-based vision as they are typically optimized for dense matrix-vector multiplications. While event-driven graph neural networks (GNNs) have recently emerged as a promising solution for sparse event-based vision, their irregular structure is a challenge that currently hinders the design of efficient hardware accelerators. In this paper, we propose EvGNN, the first event-driven GNN accelerator for low-footprint, ultra-low-latency, and high-accuracy edge vision with event-based cameras. It relies on three central ideas: (i) directed dynamic graphs exploiting single-hop nodes with edge-free storage, (ii) event queues for the efficient identification of local neighbors within a spatiotemporally decoupled search range, and (iii) a novel layer-parallel processing scheme enabling the low-latency execution of multi-layer GNNs. We deployed EvGNN on a Xilinx KV260 Ultrascale+ MPSoC platform and benchmarked it on the N-CARS dataset for car recognition, demonstrating a classification accuracy of 87.8% and an average latency per event of 16$\mu$s, thereby enabling real-time, microsecond-resolution event-based vision at the edge.
翻訳日:2024-05-01 14:25:13 公開日:2024-04-30
# オンラインおよびオフラインロバスト多変量線形回帰

Online and Offline Robust Multivariate Linear Regression ( http://arxiv.org/abs/2404.19496v1 )

ライセンス: Link先を確認
Antoine Godichon-Baggioni, Stephane S. Robin, Laure Sansonnet, (参考訳) 多変量ガウス線形回帰モデルのパラメータのロバストな推定を考察する。 この目的のために、リッジ正規化の有無にかかわらず、通常の(マハラノビス)最小二乗基準のロバスト版を考える。 コントラストを考慮に入れた2つの方法を紹介する。 (i)オンライン確率勾配降下アルゴリズムとその平均化バージョン (ii)オフラインの固定点アルゴリズム。 弱い仮定の下では、得られた推定の漸近正規性を証明する。 ノイズの分散行列は通常未知であるため、マハラノビスに基づく確率勾配勾配アルゴリズムに頑健な推定をプラグインすることを提案する。 合成データでは,提案した推定値のロバスト性に関して,古典的最小二乗法に比べて劇的な向上を示した。 また、提案したアルゴリズムのオンライン版の計算効率を示す。 提案されたアルゴリズムはすべて、CRANで利用可能なRパッケージRobRegressionで実装されている。

We consider the robust estimation of the parameters of multivariate Gaussian linear regression models. To this aim we consider robust version of the usual (Mahalanobis) least-square criterion, with or without Ridge regularization. We introduce two methods each considered contrast: (i) online stochastic gradient descent algorithms and their averaged versions and (ii) offline fix-point algorithms. Under weak assumptions, we prove the asymptotic normality of the resulting estimates. Because the variance matrix of the noise is usually unknown, we propose to plug a robust estimate of it in the Mahalanobis-based stochastic gradient descent algorithms. We show, on synthetic data, the dramatic gain in terms of robustness of the proposed estimates as compared to the classical least-square ones. Well also show the computational efficiency of the online versions of the proposed algorithms. All the proposed algorithms are implemented in the R package RobRegression available on CRAN.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# 変量量子固有ソルバアンサッツのための光コーンキャンセラ

Light Cone Cancellation for Variational Quantum Eigensolver Ansatz ( http://arxiv.org/abs/2404.19497v1 )

ライセンス: Link先を確認
Xinjian Yan, Xinwei Lee, Ningyi Xie, Yoshiyuki Saito, Leo Kurosawa, Nobuyoshi Asai, Dongsheng Cai, HoongChuin Lau, (参考訳) 変分量子アルゴリズム(VQA)は、古典的および量子コンピューティング技術を組み合わせたハイブリッドアプローチを利用するアルゴリズムのクラスである。 このアプローチでは、古典コンピュータは回路パラメータを更新し、複雑な問題に対する近似解を見つける最適化器として機能する。 本研究では,光コーンキャンセラ法 (LCC) を用いて変動回路を最適化し,回路シミュレーションに必要なキュービット数とゲート数を効果的に削減する。 次に,変分量子固有解器(VQE)であるVQAsのLCCの性能を評価し,Max-Cut問題に対処する。 量子近似最適化アルゴリズム (Quantum Approximate Optimization Algorithm, QAOA) と比較すると、VQEは低い回路深さでより大きな自由度を提供する。 VQEにLCCを適用することで、回路シミュレーションの複雑さをキュービット数からグラフのエッジ数、すなわち指数時間から多項式時間にシフトすることができる。 これにより、回路全体を実際にシミュレートすることなく、50頂点までの大規模な問題を解くことができる。 7-qubit と 27-qubit の雑音特性をシミュレーションした結果,LCC は LCC を含まない場合よりも高い近似比が得られ,LCC を適用した場合の雑音効果が低下することが示唆された。

Variational Quantum Algorithms (VQAs) represent a class of algorithms that utilize a hybrid approach, combining classical and quantum computing techniques. In this approach, classical computers serve as optimizers that update circuit parameters to find approximate solutions to complex problems. In this study, we apply a method known as Light Cone Cancellation (LCC) to optimize variational circuits, effectively reducing the required number of qubits and gates for circuit simulation. We then evaluate the performance of LCC one of the VQAs -- the Variational Quantum Eigensolver (VQE) -- to address the Max-Cut problem. Compared with the Quantum Approximate Optimization Algorithm (QAOA), VQE offers greater degrees of freedom at lower circuit depths. By applying LCC to VQE, we can shift the complexity of circuit simulation from the number of qubits to the number of edges in the graph, i.e., from exponential time to polynomial time. This enables us to solve large problems up to 50 vertices, without actually simulating the entire circuit. From our simulation in a 7-qubit and a 27-qubit noisy devices, we show that LCC yields higher approximation ratios than those cases without LCC, implying that the effect of noise is reduced when LCC is applied.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# 現実世界の顔の復元に向けて:新しいベンチマーク

Towards Real-world Video Face Restoration: A New Benchmark ( http://arxiv.org/abs/2404.19500v1 )

ライセンス: Link先を確認
Ziyan Chen, Jingwen He, Xinqi Lin, Yu Qiao, Chao Dong, (参考訳) 画像上のブラインド顔復元(BFR)はここ数年で大きく進歩しているが、視線方向や顔の向きなどのより複雑な顔の動きに対してより難しい実世界のビデオ顔復元(VFR)は未解決のままである。 典型的なBFR法は、プライベートに合成されたデータセットや、実際のビデオフレームのカバレッジに制限がある自己コンパイルされた現実世界の低品質の顔画像で評価される。 本研究では、主にビデオフレームから"Full, Occluded, and Side"の分類を用いたFOSと呼ばれる新しい実世界のデータセットを導入し、ビデオ上の現在の手法の適用性について検討した。 既存のテストデータセットと比較して、FOSデータセットはより多様な劣化をカバーし、より複雑なシナリオからの顔サンプルを含む。 確立されたデータセットから,最新のBFR手法とビデオスーパーレゾリューション(VSR)手法の両方をベンチマークし,VFRタスクにおけるその可能性と限界を特定した。 また,画像品質評価(IQA)指標と顔IQA(FIQA)指標の有効性を主観的ユーザスタディを用いて検討した。 実験結果と詳細な分析結果により,現在のBFR法とVSR法の両方の成功と失敗から知見を得た。 これらの結果は、現在の顔修復アプローチにも課題をもたらし、VFR研究の今後の進歩を期待する。

Blind face restoration (BFR) on images has significantly progressed over the last several years, while real-world video face restoration (VFR), which is more challenging for more complex face motions such as moving gaze directions and facial orientations involved, remains unsolved. Typical BFR methods are evaluated on privately synthesized datasets or self-collected real-world low-quality face images, which are limited in their coverage of real-world video frames. In this work, we introduced new real-world datasets named FOS with a taxonomy of "Full, Occluded, and Side" faces from mainly video frames to study the applicability of current methods on videos. Compared with existing test datasets, FOS datasets cover more diverse degradations and involve face samples from more complex scenarios, which helps to revisit current face restoration approaches more comprehensively. Given the established datasets, we benchmarked both the state-of-the-art BFR methods and the video super resolution (VSR) methods to comprehensively study current approaches, identifying their potential and limitations in VFR tasks. In addition, we studied the effectiveness of the commonly used image quality assessment (IQA) metrics and face IQA (FIQA) metrics by leveraging a subjective user study. With extensive experimental results and detailed analysis provided, we gained insights from the successes and failures of both current BFR and VSR methods. These results also pose challenges to current face restoration approaches, which we hope stimulate future advances in VFR research.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# 指数族潜在変数モデルにおける特殊推論と学習の統一理論

A Unified Theory of Exact Inference and Learning in Exponential Family Latent Variable Models ( http://arxiv.org/abs/2404.19501v1 )

ライセンス: Link先を確認
Sacha Sokoloski, (参考訳) ベイズの法則は、観測された潜伏変数に関する後続の信念を推測する方法を記述し、推論は潜伏変数モデル(LVM)の学習アルゴリズムにおいて重要なステップである。 線形ガウスモデルや混合モデルのような特定のLVMの推論と学習には正確なアルゴリズムがあるが、研究者は通常、新しいLVMを適用する際に近似推論と学習アルゴリズムを開発する必要がある。 本稿では,近似スキームに依存するLVMを,そうでないものから分離し,推論と学習を正確に実装可能な指数族,潜在変数モデル(英語版)の一般理論を開発する。 まず、与えられた LVM の指数族形式に関する穏やかな仮定の下で、LVM が後部と同じ指数族であり、前部が後部への共役であるような必要十分条件を導出する。 これらの条件を満たす全てのモデルが、指数関数型家族図形モデルの特定のクラスの制約された形式であることを示す。 次に、一般的な推論と学習アルゴリズムを導出し、様々なサンプルモデルでそれらを実証する。 最後に、抽出可能な推論と学習を保持するグラフィカルモデルにモデルを構成する方法を示す。 我々の理論的な研究に加えて、我々は我々のアルゴリズムを図書館に実装し、我々の理論の多くの実演を行い、研究者は我々の理論を新しい統計学的設定で適用することができるかもしれない。

Bayes' rule describes how to infer posterior beliefs about latent variables given observations, and inference is a critical step in learning algorithms for latent variable models (LVMs). Although there are exact algorithms for inference and learning for certain LVMs such as linear Gaussian models and mixture models, researchers must typically develop approximate inference and learning algorithms when applying novel LVMs. In this paper we study the line that separates LVMs that rely on approximation schemes from those that do not, and develop a general theory of exponential family, latent variable models for which inference and learning may be implemented exactly. Firstly, under mild assumptions about the exponential family form of a given LVM, we derive necessary and sufficient conditions under which the LVM prior is in the same exponential family as its posterior, such that the prior is conjugate to the posterior. We show that all models that satisfy these conditions are constrained forms of a particular class of exponential family graphical model. We then derive general inference and learning algorithms, and demonstrate them on a variety of example models. Finally, we show how to compose our models into graphical models that retain tractable inference and learning. In addition to our theoretical work, we have implemented our algorithms in a collection of libraries with which we provide numerous demonstrations of our theory, and with which researchers may apply our theory in novel statistical settings.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# ソース参照記述を用いた文脈対応機械翻訳

Context-Aware Machine Translation with Source Coreference Explanation ( http://arxiv.org/abs/2404.19505v1 )

ライセンス: Link先を確認
Huy Hien Vu, Hidetaka Kamigaito, Taro Watanabe, (参考訳) 翻訳の質が大幅に向上したにもかかわらず、文脈対応機械翻訳(MT)モデルは多くの場合性能が劣る。 主な理由の1つは、コンテキストが長すぎる場合やモデルが複雑すぎる場合、コンテキストから正しい機能を利用することができないことである。 モデルでは、予測をより簡単に説明できる機能しか考慮せず、結果として不正確な翻訳が行われる。 この問題に対処するために,入力中のコア参照の特徴を予測し,翻訳のための決定を記述したモデルを提案する。 本稿では,既存のMTモデル上での入力と変換の両方の出力表現からコンテキスト特徴を活用することで,入力コア参照のためのモデルを構築する。 我々は、WMT文書レベル翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価と分析を行い、他の文脈認識モデルと比較して1.0BLEUスコアの改善を実証した。

Despite significant improvements in enhancing the quality of translation, context-aware machine translation (MT) models underperform in many cases. One of the main reasons is that they fail to utilize the correct features from context when the context is too long or their models are overly complex. This can lead to the explain-away effect, wherein the models only consider features easier to explain predictions, resulting in inaccurate translations. To address this issue, we propose a model that explains the decisions made for translation by predicting coreference features in the input. We construct a model for input coreference by exploiting contextual features from both the input and translation output representations on top of an existing MT model. We evaluate and analyze our method in the WMT document-level translation task of English-German dataset, the English-Russian dataset, and the multilingual TED talk dataset, demonstrating an improvement of over 1.0 BLEU score when compared with other context-aware models.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# 不規則にサンプリングされた時系列の時間グラフ ODE

Temporal Graph ODEs for Irregularly-Sampled Time Series ( http://arxiv.org/abs/2404.19508v1 )

ライセンス: Link先を確認
Alessio Gravina, Daniele Zambon, Davide Bacciu, Cesare Alippi, (参考訳) 現代のグラフ表現学習は主に、定期的にサンプリングされた時間グラフスナップショットを扱うという仮定の下で機能する。 この制限に対処するため,時間的グラフ正規微分方程式(TG-ODE)フレームワークを導入する。 提案手法をいくつかのグラフベンチマークで実証的に検証し、不規則なグラフストリームタスクにおいてTG-ODEが最先端の性能を達成可能であることを示す。

Modern graph representation learning works mostly under the assumption of dealing with regularly sampled temporal graph snapshots, which is far from realistic, e.g., social networks and physical systems are characterized by continuous dynamics and sporadic observations. To address this limitation, we introduce the Temporal Graph Ordinary Differential Equation (TG-ODE) framework, which learns both the temporal and spatial dynamics from graph streams where the intervals between observations are not regularly spaced. We empirically validate the proposed approach on several graph benchmarks, showing that TG-ODE can achieve state-of-the-art performance in irregular graph stream tasks.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# 会話不規則を理解する大規模言語モデル -中国のシットコムを事例として-

Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom ( http://arxiv.org/abs/2404.19509v1 )

ライセンス: Link先を確認
Shisen Yue, Siyuan Song, Xinyuan Cheng, Hai Hu, (参考訳) 発話の非リテラルな意味を理解することは、大きな言語モデル(LLM)が人間のような社会コミュニケーション者になるために重要である。 本研究では,中国語の sitcom $\textit{My Own Swordsman}$ の対話をベースとした,会話不規則を目的とした,最初の中国語多元対話型データセットである SwordsmanImp を紹介する。 200の注意深い手作りの質問が含まれており、すべての注釈がグリサンの最大値が違反している。 我々は,複数選択質問タスクと不合理な説明タスクという2つのタスクの下で,オープンソースかつオープンソースな8つのLSMをテストした。 以上の結果から, GPT-4は, 複数質問に対する人間レベルの精度(94%)を達成できることがわかった。 CausalLMはGPT-4の78.5%の精度を示している。 GPT-3.5やいくつかのオープンソースモデルを含む他のモデルは、複数の質問に対して20%から60%の低い精度を示している。 人間のラッカーは、LLMが生み出す障害を、その理性、論理性、および流布度に基づいて評価するよう求められた。 全てのモデルは、主に流動的で自己整合性のあるテキストを生成するが、その説明は、GPT-4を除いては、推論性に乏しい。 さらに,LLMの性能はGricean maximsによって大きくは変化せず,LLMは異なる最大値から導出される不適応を異なる方法で処理していないことが示唆された。 私たちのデータとコードはhttps://github.com/sjtu-compling/llm-pragmatics.comで公開されています。

Understanding the non-literal meaning of an utterance is critical for large language models (LLMs) to become human-like social communicators. In this work, we introduce SwordsmanImp, the first Chinese multi-turn-dialogue-based dataset aimed at conversational implicature, sourced from dialogues in the Chinese sitcom $\textit{My Own Swordsman}$. It includes 200 carefully handcrafted questions, all annotated on which Gricean maxims have been violated. We test eight close-source and open-source LLMs under two tasks: a multiple-choice question task and an implicature explanation task. Our results show that GPT-4 attains human-level accuracy (94%) on multiple-choice questions. CausalLM demonstrates a 78.5% accuracy following GPT-4. Other models, including GPT-3.5 and several open-source models, demonstrate a lower accuracy ranging from 20% to 60% on multiple-choice questions. Human raters were asked to rate the explanation of the implicatures generated by LLMs on their reasonability, logic and fluency. While all models generate largely fluent and self-consistent text, their explanations score low on reasonability except for GPT-4, suggesting that most LLMs cannot produce satisfactory explanations of the implicatures in the conversation. Moreover, we find LLMs' performance does not vary significantly by Gricean maxims, suggesting that LLMs do not seem to process implicatures derived from different maxims differently. Our data and code are available at https://github.com/sjtu-compling/llm-pragmatics.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# 三波混合による熱化

Thermalization via three-wave mixing ( http://arxiv.org/abs/2404.19511v1 )

ライセンス: Link先を確認
Jukka P. Pekola, Bayan Karimi, (参考訳) 単体進化下での多モード量子キャビティにおける熱化について論じる。 一般原理によれば、二次結合を持つ孤立系は熱化を示さない。 しかし、例えば超伝導ジョセフソン系の3波摂動は、モードの占有のボース・アインシュタイン分布に熱化をもたらす可能性がある。 この状態の温度は、この閉じた系のエネルギー保存によって予測され、熱分布は弱い乱れに対して堅牢である。 本稿では, 固体系における統計物理の基本仮定を実験的に解明するために, 新たな道の開き方について考察する。

We discuss thermalization in a multimode quantum cavity under unitary evolution. According to general principles, an isolated system with quadratic couplings does not exhibit thermalization. However, we find that three-wave perturbation, typical for instance in superconducting Josephson systems, may lead to thermalization into a Bose-Einstein distribution of occupations of the modes. The temperature of this state is dictated by energy conservation in this closed system, and the thermal distribution is robust against weak disturbances. We discuss how our findings open up new avenues to experimentally probe fundamental assumptions of statistical physics in solid-state systems.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# トリコーム密度測定によるトマトの栄養状態評価のためのスマートフォンによる方法

A Smartphone-Based Method for Assessing Tomato Nutrient Status through Trichome Density Measurement ( http://arxiv.org/abs/2404.19513v1 )

ライセンス: Link先を確認
Sho Ueda, Xujun Ye, (参考訳) トマトの栄養状態の正確な評価は、高い収量を維持するために重要である。 その結果, トマトの形態的特性を通じて, 肥料によるストレスを正確に同定することが, 農業にとって重要な課題となった。 研究と開発は、形態学的特徴と高度なセンサー技術の組み合わせを活用した栄養学の非侵襲的診断ツールの開発に重点を置いている。 これらの進歩を踏まえると、トマトの成長点付近で形態学的特徴を観察することによって肥料のストレスを検出することは依然として重要な課題である。 この課題に対処するため, 簡易で費用対効果の高いスマートフォンを用いたトリプルホーム密度測定法を開発した。 この方法では、葉の表面からセロファンテープにトリコメを転送し、スマートフォンで画像をキャプチャする。 画像はコンピュータビジョン技術を用いて処理され、トリプルホーム密度が計算される。 本法の有効性を評価するため, 肥料濃度の異なる水耕栽培トマトについて実験を行った。 以上の結果から,本手法はトマトの肥料ストレスを正確に反映することが明らかとなった。 光条件の違いによる測定データの変化にもかかわらず, 精度リコール曲線の平均領域で評価したモデルの性能は0.824であった。 本研究は, 植物の表面構造を考慮し, 植物中の肥料ストレスを検出する診断装置を設計するための革新的なアプローチを提案する。 提案手法は,トマトの栄養状態を評価するための簡便で効率的かつ経済的アプローチであり,従来の非接触光学的手法の限界を克服する可能性を秘めている。

Accurately assessing tomato plant nutrient status is crucial for maintaining high yields. Consequently, accurately identifying fertilizer-induced stress through the morphological traits of tomato plants has become a critical agricultural challenge. Research and development efforts have focused on developing noninvasive diagnostic tools for nutrition that leverage a combination of morphological traits and advanced sensor technologies. Given these advancements, detecting fertilizer stress by observing morphological traits near the growth points of tomatoes is still a significant challenge. To address this challenge, we developed a simple and cost-effective smartphone-based method for measuring trichome density. This method involves transferring trichomes from the surface of a leaf onto cellophane tape and capturing images using a smartphone. The images are processed using computer vision techniques to calculate the trichome density. To assess the efficacy of this method, we performed experiments on hydroponically grown tomato plants subjected to varying fertilizer concentrations. Our results indicate that our novel method for measuring trichome density accurately reflects fertilizer stress in tomato plants. The predictive performance of our model, as evaluated by the mean area under the precision recall curve, was 0.824, despite variations in the measurement data caused by differences in optical conditions. This study introduces an innovative approach for designing diagnostic devices for detecting fertilizer stress in plants by considering the surface structures of plants. Our proposed method represents a straightforward, efficient, and economical approach for evaluating the nutrient status of tomato plants and has the potential to overcome the limitations of conventional noncontact optical methods.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# 半代数関数の不正確な下勾配法

Inexact subgradient methods for semialgebraic functions ( http://arxiv.org/abs/2404.19517v1 )

ライセンス: Link先を確認
Jérôme Bolte, Tam Le, Éric Moulines, Edouard Pauwels, (参考訳) 機械学習と最適化における近似微分の広範利用を動機とし、無矛盾な加法誤差とステップサイズを持つ不正確な下位段階法について検討する。 非凸半代数的設定では、有界性仮定の下で、この方法が最終的に臨界集合に近い距離で変動する点を$\epsilon^\rho$とすると、$\epsilon$は下次評価の誤差であり、$\rho$は問題の幾何学に関連する。 凸設定では、平均値に対する複雑性結果を提供する。 また、非滑らかな非凸問題に対する降下様補題や、差分包摂のアフィン補間剤の制限に関するいくつかの結果など、独立した関心の副産物も得る。

Motivated by the widespread use of approximate derivatives in machine learning and optimization, we study inexact subgradient methods with non-vanishing additive errors and step sizes. In the nonconvex semialgebraic setting, under boundedness assumptions, we prove that the method provides points that eventually fluctuate close to the critical set at a distance proportional to $\epsilon^\rho$ where $\epsilon$ is the error in subgradient evaluation and $\rho$ relates to the geometry of the problem. In the convex setting, we provide complexity results for the averaged values. We also obtain byproducts of independent interest, such as descent-like lemmas for nonsmooth nonconvex problems and some results on the limit of affine interpolants of differential inclusions.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# MGCBS:多目的多元経路探索問題の最適かつ効率的な解法

MGCBS: An Optimal and Efficient Algorithm for Solving Multi-Goal Multi-Agent Path Finding Problem ( http://arxiv.org/abs/2404.19518v1 )

ライセンス: Link先を確認
Mingkai Tang, Yuanhang Li, Hongji Liu, Yingbing Chen, Ming Liu, Lujia Wang, (参考訳) ロボット工学応用の規模が拡大するにつれ、MG-MAPF(multi-goal multi-agent pathfinding)問題に注目が集まるようになった。 この問題は各エージェントが、少なくとも1回は衝突することなく、事前に割り当てられた複数のゴールポイントを訪問する必要がある。 目的のVertex訪問順序探索とシングルエージェントパスフィンディング(DVS)に基づくMG-MAPF問題の解法が提案されている。 しかし,本稿はDVSに基づく手法が常に最適解を得ることができないことを示す。 最適結果を得るため,目的の安全区間訪問順序探索と単一エージェントパスフィンディング(DSS)を分離したMulti-Goal Conflict-Based Search (MGCBS)を提案する。 さらに,TISフォレスト(Time-Interval-Space Forest, TISフォレスト)を,任意の開始時点から目標地点の各安全区間までの最短経路を維持することにより,MGCBSの効率を向上させる。 実験により,本手法は最適結果が常に得られ,評価において最先端の手法よりも最大7倍高速に実行可能であることが示された。

With the expansion of the scale of robotics applications, the multi-goal multi-agent pathfinding (MG-MAPF) problem began to gain widespread attention. This problem requires each agent to visit pre-assigned multiple goal points at least once without conflict. Some previous methods have been proposed to solve the MG-MAPF problem based on Decoupling the goal Vertex visiting order search and the Single-agent pathfinding (DVS). However, this paper demonstrates that the methods based on DVS cannot always obtain the optimal solution. To obtain the optimal result, we propose the Multi-Goal Conflict-Based Search (MGCBS), which is based on Decoupling the goal Safe interval visiting order search and the Single-agent pathfinding (DSS). Additionally, we present the Time-Interval-Space Forest (TIS Forest) to enhance the efficiency of MGCBS by maintaining the shortest paths from any start point at any start time step to each safe interval at the goal points. The experiment demonstrates that our method can consistently obtain optimal results and execute up to 7 times faster than the state-of-the-art method in our evaluation.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# グラフニューラルネットワークのためのロバストな対実的ウィットネスの生成

Generating Robust Counterfactual Witnesses for Graph Neural Networks ( http://arxiv.org/abs/2404.19519v1 )

ライセンス: Link先を確認
Dazhuo Qiu, Mengying Wang, Arijit Khan, Yinghui Wu, (参考訳) 本稿では,グラフニューラルネットワークに対して,ロバスト・ファクト・ファクト・インジケータ(RCW)と呼ばれる新たな説明構造を導入し,ロバスト・ファクト・ファクト・インジケータとファクト・インジケータを両立させる。 グラフニューラルネットワーク M が与えられたとき、頑健な反実的証人はグラフ G の分数を指し、これは M の G 上の結果の反実的かつ事実的な説明であるが、ノード対の k までをひっくり返すことによって、任意の「歪んだ」 G に対しても依然としてそのように残っている。 我々は,頑健な反事実証人を検証・生成するために,抽出可能な結果から共NP硬度まで,難易度結果を確立する。 GNNに基づくノード分類のためのそのような構造について検討し、RCWを検証・生成するための効率的なアルゴリズムを提案する。 また,拡張性を保証する大規模グラフに対するRCWの検証と生成を行う並列アルゴリズムも提供する。 ベンチマークデータセットの説明生成過程を実験的に検証し,その応用例を示す。

This paper introduces a new class of explanation structures, called robust counterfactual witnesses (RCWs), to provide robust, both counterfactual and factual explanations for graph neural networks. Given a graph neural network M, a robust counterfactual witness refers to the fraction of a graph G that are counterfactual and factual explanation of the results of M over G, but also remains so for any "disturbed" G by flipping up to k of its node pairs. We establish the hardness results, from tractable results to co-NP-hardness, for verifying and generating robust counterfactual witnesses. We study such structures for GNN-based node classification, and present efficient algorithms to verify and generate RCWs. We also provide a parallel algorithm to verify and generate RCWs for large graphs with scalability guarantees. We experimentally verify our explanation generation process for benchmark datasets, and showcase their applications.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# MicroDreamer: スコアベースイテレーティブレコンストラクションによる$\sim$20秒のゼロショット3D生成

MicroDreamer: Zero-shot 3D Generation in $\sim$20 Seconds by Score-based Iterative Reconstruction ( http://arxiv.org/abs/2404.19525v1 )

ライセンス: Link先を確認
Luxi Chen, Zhengyi Wang, Chongxuan Li, Tingting Gao, Hang Su, Jun Zhu, (参考訳) スコア蒸留サンプリング(SDS)のような最適化に基づくアプローチは、ゼロショット3D生成において有望であるが、主に各試料に必要な関数評価(NFE)の多さにより、低効率に悩まされている。 本稿では,多視点スコアベース拡散モデルを用いた3次元生成のための効率的かつ汎用的なアルゴリズムであるスコアベース反復再構成(SIR)を提案する。 拡散モデルにより生成された画像から、SIRは3次元再構成過程を模倣したSDSの1つの最適化とは異なり、繰り返し3次元パラメータを最適化することでNFEを削減する。 画素空間の最適化を含む他の改良により、様々な3次元表現や3次元生成タスクに適用できるMicroDreamerと呼ばれる効率的なアプローチを提案する。 特に、同等のパフォーマンスを維持しているMicroDreamerは、神経放射場を生成する場合、SDSよりも5~20倍高速で、単一のA100 GPU上で3Dガウス分割からメッシュを生成するのに約20秒かかり、最速のゼロショットベースラインであるDreamGaussianの時間を半減する。 私たちのコードはhttps://github.com/ML-GSAI/MicroDreamer.comで利用可能です。

Optimization-based approaches, such as score distillation sampling (SDS), show promise in zero-shot 3D generation but suffer from low efficiency, primarily due to the high number of function evaluations (NFEs) required for each sample. In this paper, we introduce score-based iterative reconstruction (SIR), an efficient and general algorithm for 3D generation with a multi-view score-based diffusion model. Given the images produced by the diffusion model, SIR reduces NFEs by repeatedly optimizing 3D parameters, unlike the single optimization in SDS, mimicking the 3D reconstruction process. With other improvements including optimization in the pixel space, we present an efficient approach called MicroDreamer that generally applies to various 3D representations and 3D generation tasks. In particular, retaining a comparable performance, MicroDreamer is 5-20 times faster than SDS in generating neural radiance field and takes about 20 seconds to generate meshes from 3D Gaussian splitting on a single A100 GPU, halving the time of the fastest zero-shot baseline, DreamGaussian. Our code is available at https://github.com/ML-GSAI/MicroDreamer.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# MoST:モーション予測のためのマルチモーダルシーントークン化

MoST: Multi-modality Scene Tokenization for Motion Prediction ( http://arxiv.org/abs/2404.19531v1 )

ライセンス: Link先を確認
Norman Mu, Jingwei Ji, Zhenpei Yang, Nate Harada, Haotian Tang, Kan Chen, Charles R. Qi, Runzhou Ge, Kratarth Goel, Zoey Yang, Scott Ettinger, Rami Al-Rfou, Dragomir Anguelov, Yin Zhou, (参考訳) 多くの既存の動き予測手法は、境界ボックス、道路グラフ情報、信号灯などのエージェントトラジェクトリを生成するために、象徴的な知覚出力に依存している。 このシンボル表現は現実世界の高レベルな抽象化であり、シーンコンテキスト(例えば道路条件の悪い場合)からの健全な情報を欠きながら、知覚誤差(例えば、開語彙障害の検出の失敗)に弱い動作予測モデルを描画することができる。 別のパラダイムは、生のセンサーからエンドツーエンドの学習である。 しかし、このアプローチは解釈可能性の欠如に悩まされ、さらに多くのトレーニングリソースを必要とします。 本研究では,視覚世界をコンパクトなシーン要素集合にトークン化し,事前学習された画像基盤モデルとLiDARニューラルネットワークを利用して,すべてのシーン要素をオープンな語彙でエンコードする手法を提案する。 画像基盤モデルにより、LiDARニューラルネットワークが幾何学情報を符号化している間に、シーントークンがオープン世界の一般的な知識を符号化することができる。 提案した表現は,数百個のトークンで多フレーム多モード観測を効率的に符号化することができ,ほとんどのトランスフォーマーアーキテクチャと互換性がある。 提案手法を評価するため,カメラを組み込んだWaymo Open Motion Datasetを構築した。 Waymo Open Motion Datasetに対する実験は、我々のアプローチが最先端技術よりも大幅なパフォーマンス改善をもたらすことを示している。

Many existing motion prediction approaches rely on symbolic perception outputs to generate agent trajectories, such as bounding boxes, road graph information and traffic lights. This symbolic representation is a high-level abstraction of the real world, which may render the motion prediction model vulnerable to perception errors (e.g., failures in detecting open-vocabulary obstacles) while missing salient information from the scene context (e.g., poor road conditions). An alternative paradigm is end-to-end learning from raw sensors. However, this approach suffers from the lack of interpretability and requires significantly more training resources. In this work, we propose tokenizing the visual world into a compact set of scene elements and then leveraging pre-trained image foundation models and LiDAR neural networks to encode all the scene elements in an open-vocabulary manner. The image foundation model enables our scene tokens to encode the general knowledge of the open world while the LiDAR neural network encodes geometry information. Our proposed representation can efficiently encode the multi-frame multi-modality observations with a few hundred tokens and is compatible with most transformer-based architectures. To evaluate our method, we have augmented Waymo Open Motion Dataset with camera embeddings. Experiments over Waymo Open Motion Dataset show that our approach leads to significant performance improvements over the state-of-the-art.
翻訳日:2024-05-01 14:15:27 公開日:2024-04-30
# MIPI 2024 夜間フレア除去の課題:方法と結果

MIPI 2024 Challenge on Nighttime Flare Removal: Methods and Results ( http://arxiv.org/abs/2404.19534v1 )

ライセンス: Link先を確認
Yuekun Dai, Dafeng Zhang, Xiaoming Li, Zongsheng Yue, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Peiqing Yang, Zhezhu Jin, Guanqun Liu, Chen Change Loy, Lize Zhang, Shuai Liu, Chaoyu Feng, Luyang Wang, Shuan Chen, Guangqi Shao, Xiaotao Wang, Lei Lei, Qirui Yang, Qihua Cheng, Zhiqiang Xu, Yihao Liu, Huanjing Yue, Jingyu Yang, Florin-Alexandru Vasluianu, Zongwei Wu, George Ciubotariu, Radu Timofte, Zhao Zhang, Suiyi Zhao, Bo Wang, Zhichao Zuo, Yanyan Wei, Kuppa Sai Sri Teja, Jayakar Reddy A, Girish Rongali, Kaushik Mitra, Zhihao Ma, Yongxu Liu, Wanying Zhang, Wei Shang, Yuhong He, Long Peng, Zhongxin Yu, Shaofei Luo, Jian Wang, Yuqi Miao, Baiang Li, Gang Wei, Rakshank Verma, Ritik Maheshwari, Rahul Tekchandani, Praful Hambarde, Satya Narayan Tazi, Santosh Kumar Vipparthi, Subrahmanyam Murala, Haopeng Zhang, Yingli Hou, Mingde Yao, Levin M S, Aniruth Sundararajan, Hari Kumar A, (参考訳) モバイルプラットフォームでの計算写真や画像の需要が増大し、カメラシステムにおける高度な画像センサと新しいアルゴリズムの広範な開発と統合がもたらされた。 しかし、研究のための高品質なデータの不足と、産業や学界からの深い見解交換の機会は、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 我々は,ECCV 2022とCVPR 2023で行われたMIPIワークショップの成果に基づいて,新しい画像センサと撮像アルゴリズムに着目した3つのトラックを含む第3回MIPIチャレンジを紹介した。 本稿では,MIPI 2024のナイトタイムフレア除去トラックについて概説する。 合計で170人の参加者が登録され、最終テストフェーズで14チームが結果を提出した。 この課題で開発されたソリューションは、夜間フレア除去における最先端のパフォーマンスを達成した。 この課題の詳細とデータセットへのリンクはhttps://mipi-challenge.org/MIPI2024/で確認できる。

The increasing demand for computational photography and imaging on mobile platforms has led to the widespread development and integration of advanced image sensors with novel algorithms in camera systems. However, the scarcity of high-quality data for research and the rare opportunity for in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). Building on the achievements of the previous MIPI Workshops held at ECCV 2022 and CVPR 2023, we introduce our third MIPI challenge including three tracks focusing on novel image sensors and imaging algorithms. In this paper, we summarize and review the Nighttime Flare Removal track on MIPI 2024. In total, 170 participants were successfully registered, and 14 teams submitted results in the final testing phase. The developed solutions in this challenge achieved state-of-the-art performance on Nighttime Flare Removal. More details of this challenge and the link to the dataset can be found at https://mipi-challenge.org/MIPI2024/.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# 極氷上での物理インフォームド機械学習:サーベイ

Physics-Informed Machine Learning On Polar Ice: A Survey ( http://arxiv.org/abs/2404.19536v1 )

ライセンス: Link先を確認
Zesheng Liu, YoungHyun Koo, Maryam Rahnemoonfar, (参考訳) 極地氷床の大量消失は、海面上昇と海洋循環の変化に大きく寄与し、海岸の洪水を引き起こし、世界中の何千万人もの人々の家や生活を危険にさらしている。 氷の挙動の複雑な問題に対処するために、物理モデルとデータ駆動モデルが文献で提案されている。 従来の物理モデルは物理的に意味のある結果を保証することができるが、高解像度の結果を生み出すには限界がある。 一方、データ駆動型アプローチは、極域ではほとんど利用できない大量の高品質なラベル付きデータを必要とする。 したがって、物理モデルとデータ駆動手法の利点を利用する有望なフレームワークとして、近年、物理学情報機械学習(PIML)が広く研究されている。 本稿では、PIMLの既存のアルゴリズムを概観し、物理とデータ駆動アプローチを組み合わせた独自の分類法を提供し、精度と効率の面でのPIMLの利点を分析する。 さらに,海氷研究におけるPIML,異なる組み合わせとバックボーンネットワークを用いたPIML,ニューラルオペレーター手法など,今後の課題について検討した。

The mass loss of the polar ice sheets contributes considerably to ongoing sea-level rise and changing ocean circulation, leading to coastal flooding and risking the homes and livelihoods of tens of millions of people globally. To address the complex problem of ice behavior, physical models and data-driven models have been proposed in the literature. Although traditional physical models can guarantee physically meaningful results, they have limitations in producing high-resolution results. On the other hand, data-driven approaches require large amounts of high-quality and labeled data, which is rarely available in the polar regions. Hence, as a promising framework that leverages the advantages of physical models and data-driven methods, physics-informed machine learning (PIML) has been widely studied in recent years. In this paper, we review the existing algorithms of PIML, provide our own taxonomy based on the methods of combining physics and data-driven approaches, and analyze the advantages of PIML in the aspects of accuracy and efficiency. Further, our survey discusses some current challenges and highlights future opportunities, including PIML on sea ice studies, PIML with different combination methods and backbone networks, and neural operator methods.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# 量子常磁性体の経路積分スピンダイナミクス

Path integral spin dynamics for quantum paramagnets ( http://arxiv.org/abs/2404.19539v1 )

ライセンス: Link先を確認
Thomas Nussle, Pascal Thibaudeau, Stam Nicolis, (参考訳) 古典的手法を用いて熱量子期待値を計算するために, 経路積分法と原子論的スピン力学シミュレーションを組み合わせた。 本研究では、一軸異方性と機械的制約を記述することに関連する非線型項でハミルトンをどう扱うかを示す。 これらの相互作用は、スピン作用素の二次項を1つの軸に沿ってのみ表現することができ、量子化軸と同一視することができる。

A path integral method, combined with atomistic spin dynamics simulations, has been developed to calculate thermal quantum expectation values using a classical approach. In this study, we show how to treat Hamiltonians with non-linear terms, that are relevant for describing uniaxial anisotropies and mechanical constraints. These interactions can be expressed solely through quadratic terms of the spin operator along one axis, that can be identified with the quantisation axis.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# Ultra Inertial Poser:Sparse Inertial Sensors と Ultra-Wideband Ranging によるスケーラブルなモーションキャプチャと追跡

Ultra Inertial Poser: Scalable Motion Capture and Tracking from Sparse Inertial Sensors and Ultra-Wideband Ranging ( http://arxiv.org/abs/2404.19541v1 )

ライセンス: Link先を確認
Rayan Armani, Changlin Qian, Jiaxi Jiang, Christian Holz, (参考訳) カメラベースのキャプチャシステムは人間の動きを記録するための金の標準であり続けているが、疎いウェアラブルセンサーに基づく学習ベースのトラッキングシステムは人気を集めている。 最も一般的には慣性センサーを使用し、ドリフトとジッターの確率は今のところ追跡精度が限られている。 本稿では,センサ間距離を用いた慣性トラッキングにおいて,ドリフトとジッタを制約する新しい3次元フルボディポーズ推定法であるUltra Inertial Poserを提案する。 超広帯域無線をベースとした安価な6D慣性測定ユニットを,静止基準アンカーを必要とせず,空隙センサの設置距離を2〜3ドルに拡大する軽量な組込みトラッカーを用いて,これらの距離を推定する。 本手法は,各センサから推定される3次元状態とセンサ間距離を融合し,その3次元状態と距離を処理し,人の全身のポーズと翻訳を推定する。 本モデルのトレーニングには,モーションキャプチャデータベースAMASSから慣性測定と距離推定を合成する。 評価のために,6個のウェアラブルIMU+UWBトラッカーと,200分間の同期センサデータ(UIP-DB)を用いて,25種類のモーションタイプの動作データセットを作成した。 PIP と TIP に対する我々の手法の最先端性能を示し、位置誤差を 13.62$ から 10.65cm$ (22\%$) に下げ、ジッタを $1.56$ から $0.055km/s^3$ (9.7\%$) に下げた。

While camera-based capture systems remain the gold standard for recording human motion, learning-based tracking systems based on sparse wearable sensors are gaining popularity. Most commonly, they use inertial sensors, whose propensity for drift and jitter have so far limited tracking accuracy. In this paper, we propose Ultra Inertial Poser, a novel 3D full body pose estimation method that constrains drift and jitter in inertial tracking via inter-sensor distances. We estimate these distances across sparse sensor setups using a lightweight embedded tracker that augments inexpensive off-the-shelf 6D inertial measurement units with ultra-wideband radio-based ranging$-$dynamically and without the need for stationary reference anchors. Our method then fuses these inter-sensor distances with the 3D states estimated from each sensor Our graph-based machine learning model processes the 3D states and distances to estimate a person's 3D full body pose and translation. To train our model, we synthesize inertial measurements and distance estimates from the motion capture database AMASS. For evaluation, we contribute a novel motion dataset of 10 participants who performed 25 motion types, captured by 6 wearable IMU+UWB trackers and an optical motion capture system, totaling 200 minutes of synchronized sensor data (UIP-DB). Our extensive experiments show state-of-the-art performance for our method over PIP and TIP, reducing position error from $13.62$ to $10.65cm$ ($22\%$ better) and lowering jitter from $1.56$ to $0.055km/s^3$ (a reduction of $97\%$).
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# テンポラル・マルチスケール・アクション・ラベルを利用したワンステージオープン語彙時空間行動検出

One-Stage Open-Vocabulary Temporal Action Detection Leveraging Temporal Multi-scale and Action Label Features ( http://arxiv.org/abs/2404.19542v1 )

ライセンス: Link先を確認
Trung Thanh Nguyen, Yasutomo Kawanishi, Takahiro Komamizu, Ichiro Ide, (参考訳) Open-vocab Temporal Action Detection (Open-vocab TAD)は、Closed-vocab Temporal Action Detection (Closed-vocab TAD)機能を拡張する高度なビデオ分析手法である。 クローズドボキャブTADは、通常、予め定義されたカテゴリのセットに基づいたアクションのローカライズと分類に限られる。 対照的に、Open-vocab TADはさらに進み、これらの事前定義されたカテゴリに限らない。 これは、ビデオ内のさまざまなアクションが広く、常に予測可能であるとは限らない実世界のシナリオで特に有用である。 Open-vocab TADの一般的な方法は2段階のアプローチを採用しており、アクションの提案を生成し、それらのアクションを識別する。 しかし、第1段階における誤りは、その後の行動識別精度に悪影響を及ぼす可能性がある。 さらに、既存の研究では、固定時間処理法を用いることにより、異なる期間の動作を扱う上での課題に直面している。 そこで本研究では,MVA(Multiscale Video Analysis)とVTA(Video-Text Alignment)の2つの主要モジュールからなる1段階のアプローチを提案する。 MVAモジュールは、様々な時間分解能でアクションをキャプチャし、様々な持続時間でアクションを検出するという課題を克服する。 VTAモジュールは、視覚とテキストのモダリティ間の相乗効果を利用して、ビデオセグメントを対応するアクションラベルと正確に整列させる。 広く認識されているデータセットTHUMOS14とActivityNet-1.3の評価は、提案手法がOpen-vocabおよびClose-vocab設定の他の手法と比較して優れた結果を得たことを示している。 このことは,TADタスクにおける提案手法の有効性の強い実証となる。

Open-vocabulary Temporal Action Detection (Open-vocab TAD) is an advanced video analysis approach that expands Closed-vocabulary Temporal Action Detection (Closed-vocab TAD) capabilities. Closed-vocab TAD is typically confined to localizing and classifying actions based on a predefined set of categories. In contrast, Open-vocab TAD goes further and is not limited to these predefined categories. This is particularly useful in real-world scenarios where the variety of actions in videos can be vast and not always predictable. The prevalent methods in Open-vocab TAD typically employ a 2-stage approach, which involves generating action proposals and then identifying those actions. However, errors made during the first stage can adversely affect the subsequent action identification accuracy. Additionally, existing studies face challenges in handling actions of different durations owing to the use of fixed temporal processing methods. Therefore, we propose a 1-stage approach consisting of two primary modules: Multi-scale Video Analysis (MVA) and Video-Text Alignment (VTA). The MVA module captures actions at varying temporal resolutions, overcoming the challenge of detecting actions with diverse durations. The VTA module leverages the synergy between visual and textual modalities to precisely align video segments with corresponding action labels, a critical step for accurate action identification in Open-vocab scenarios. Evaluations on widely recognized datasets THUMOS14 and ActivityNet-1.3, showed that the proposed method achieved superior results compared to the other methods in both Open-vocab and Closed-vocab settings. This serves as a strong demonstration of the effectiveness of the proposed method in the TAD task.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# RAGとRAU:自然言語処理における検索言語モデルの検討

RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing ( http://arxiv.org/abs/2404.19543v1 )

ライセンス: Link先を確認
Yucheng Hu, Yuxing Lu, (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)の大幅な進歩を触媒しているが、幻覚やドメイン固有の知識の必要性といった課題に直面している。 これらを緩和するために、最近の方法論は外部リソースからLLMから取得した情報を統合し、NLPタスク間での性能を大幅に向上させた。 本稿では、検索言語モデル(ALM)、検索言語モデル(RAG)、検索言語モデル(RAU)について概観する。 本稿では、Retrievers、Language Models、Augmentationsを含むRALMsの本質的なコンポーネントと、それらの相互作用がモデル構造やアプリケーションにどのように影響するかについて論じる。 RALMは、翻訳や対話システムから知識集約アプリケーションまで、様々なタスクにおいて有用性を示す。 この調査には、ALMの評価方法がいくつか含まれており、その評価におけるロバスト性、正確性、および関連性の重要性を強調している。 また、ALMの限界、特に検索品質と計算効率の限界を認め、将来の研究の方向性を提供する。 結論として、この調査は、ALM、その可能性、そして今後のNLP開発への道のりについて、構造化された洞察を提供することを目的としている。 この論文には、調査対象の作業とリソースを含むGithubリポジトリが補足されている。

Large Language Models (LLMs) have catalyzed significant advancements in Natural Language Processing (NLP), yet they encounter challenges such as hallucination and the need for domain-specific knowledge. To mitigate these, recent methodologies have integrated information retrieved from external resources with LLMs, substantially enhancing their performance across NLP tasks. This survey paper addresses the absence of a comprehensive overview on Retrieval-Augmented Language Models (RALMs), both Retrieval-Augmented Generation (RAG) and Retrieval-Augmented Understanding (RAU), providing an in-depth examination of their paradigm, evolution, taxonomy, and applications. The paper discusses the essential components of RALMs, including Retrievers, Language Models, and Augmentations, and how their interactions lead to diverse model structures and applications. RALMs demonstrate utility in a spectrum of tasks, from translation and dialogue systems to knowledge-intensive applications. The survey includes several evaluation methods of RALMs, emphasizing the importance of robustness, accuracy, and relevance in their assessment. It also acknowledges the limitations of RALMs, particularly in retrieval quality and computational efficiency, offering directions for future research. In conclusion, this survey aims to offer a structured insight into RALMs, their potential, and the avenues for their future development in NLP. The paper is supplemented with a Github Repository containing the surveyed works and resources for further study: https://github.com/2471023025/RALM_Survey.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# デジタル画像ステガノグラフィーの大規模調査 : 最先端技術

An Extensive Survey of Digital Image Steganography: State of the Art ( http://arxiv.org/abs/2404.19548v1 )

ライセンス: Link先を確認
Idakwo M. A., Muazu M. B., Adedokun A. E., Sadiq B. O, (参考訳) インターネットやイントラネット上での情報交換中に機密情報のプライバシーを守る必要性から、暗号やステガノグラフィーが広く採用されている。 暗号化アプローチは、情報を読めないフォーマットに変換するが、コンピュータ上で構造化されたバイトが流れるのを見るとき、バイトの異常な自然の流れのために暗号解析の注意を惹きつける。 一方、ステガノグラフィーはデジタルメディアを用いた隠蔽通信の存在を隠蔽している。 あらゆるデジタルメディア(テキスト、画像、ビデオ、オーディオ)はセンシティブな情報を盗むことができるが、高い冗長なビットを持つメディアは、メディアを歪ませることなくセンシティブな情報を埋め込むのに有利である。 デジタル画像は、高い許容歪み率、高可用性、高冗長ビットの小さいサイズのために、他の画像と比較して機密情報を伝達するのに主に使用される。 しかし、極秘情報の最適埋め込みにおける冗長ビットの最大化の必要性は、ペイロードの増加に伴って劣化する非受容性の前提条件のため、最も大きな問題となっている。 これにより、より低いペイロード要求のアプリケーションのみにステガノグラフィが制限されるため、より広範なデプロイメントへの採用が制限される。 本稿は,現状の造形技術,最近の動向,課題を批判的に分析する。

The need to protect sensitive information privacy duringinformation exchange over the internet/intranet has led towider adoption of cryptography and steganography. The cryptography approaches convert the information into an unreadable format however draws the attention of cryptanalyst owing to the uncommon random nature flow of the bytes when viewing the flowing structured bytes on a computer. While steganography, in contrast, conceals the very existence of covert communication using digital media. Although any digital media (text, image, video, audio) can covey the sensitive information, the media with higher redundant bits are more favorable for embedding the sensitive information without distorting the media. Digital images are majorly used in conveying sensitive information compared to others owing to their higher rate of tolerating distortions, highly available, smaller sizes with high redundant bits. However, the need for maximizing the redundancy bits for the optimum embedding of secret information has been a paramount issue due to the imperceptibility prerequisite which deteriorates with an increase in payload thus, resulting in a tradeoff. This has limited steganography to only applications with lower payload requirements, thus limiting the adoption for wider deployment. This paper critically analyzes the current steganographic techniques, recent trends, and challenges.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# Llama-3のコンテキスト10Foldを一晩で拡張する

Extending Llama-3's Context Ten-Fold Overnight ( http://arxiv.org/abs/2404.19553v1 )

ライセンス: Link先を確認
Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou, (参考訳) 我々は,Llama-3-8B-Instructのコンテキスト長を8Kから80Kまで,QLoRAファインタニングにより拡張する。 トレーニングサイクル全体が超効率的で、1台の8xA800(80G)GPUマシンで8時間かかる。 得られたモデルは、NIHS、トピック検索、長文言語理解などの幅広い評価タスクにおいて優れた性能を示し、一方、短い文脈よりも本来の能力を保っている。 劇的な文脈拡張は主に、GPT-4によって生成された3.5Kの合成訓練サンプルに起因している。 実際、コンテクストの長さは80Kを超えて、より多くの計算リソースで拡張できる。 そのため、チームは、コミュニティの将来の研究を促進するために、すべてのリソース(データ、モデル、データ生成パイプライン、トレーニングコードを含む)を公開する。

We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, which takes 8 hours on one 8xA800 (80G) GPU machine. The resulted model exhibits superior performances across a broad range of evaluation tasks, such as NIHS, topic retrieval, and long-context language understanding; meanwhile, it also well preserves the original capability over short contexts. The dramatic context extension is mainly attributed to merely 3.5K synthetic training samples generated by GPT-4 , which indicates the LLMs' inherent (yet largely underestimated) potential to extend its original context length. In fact, the context length could be extended far beyond 80K with more computation resources. Therefore, the team will publicly release the entire resources (including data, model, data generation pipeline, training code) so as to facilitate the future research from the community: \url{https://github.com/FlagOpen/FlagEmbedding}.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# 動的応答関数の計算のための絡み合い支援位相推定アルゴリズム

Entanglement-assisted phase estimation algorithm for calculating dynamical response functions ( http://arxiv.org/abs/2404.19554v1 )

ライセンス: Link先を確認
Rei Sakuma, Shu Kanno, Kenji Sugisaki, Takashi Abe, Naoki Yamamoto, (参考訳) 動的応答関数は、量子多体系の励起状態特性を記述するための基本的な量である。 周波数領域におけるQPE測定結果から直接エネルギースペクトルを抽出する量子位相推定(QPE)を用いて、これらの量を評価するために量子アルゴリズムが提案されている。 しかし、QPEアルゴリズムに固有のスペクトルリーク(ピーク拡大)の問題のため、これらのQPEに基づくアプローチによる励起エネルギーと遷移確率の正確な推定は困難である。 この問題を克服するために、この研究では、推定精度のハイゼンベルク限定スケーリングを実現することが知られている最適絡み合った入力状態を採用するQPEベースのアプローチの拡張を検討する。 この方法では、計算されたエネルギースペクトルのピークは、元のQPEベースのアプローチで計算されたピークよりもより局所化されており、スペクトルリーク問題の緩和が示唆されている。 交絡位相推定を用いて確率分布を解析することにより、スペクトルのピークの遷移エネルギーと対応する遷移確率の両方をより正確に推定する簡単なスキームを提案する。 この処方の妥当性は、凝縮物質物理学における単純な電子プラズモンモデルのスペクトル関数、量子化学におけるH$2$O分子の双極子遷移、核物理学における$^6$Li核の電磁遷移など、様々な量子多体問題における数値シミュレーションによって実証される。

Dynamical response functions are fundamental quantities to describe the excited-state properties in quantum many-body systems. Quantum algorithms have been proposed to evaluate these quantities by means of quantum phase estimation (QPE), where the energy spectra are directly extracted from the QPE measurement outcomes in the frequency domain. Accurate estimation of excitation energies and transition probabilities with these QPE-based approaches is, however, challenging because of the problem of spectral leakage (or peak broadening) which is inherent in the QPE algorithm. To overcome this issue, in this work we consider an extension of the QPE-based approach adopting the optimal entangled input states, which is known to achieve the Heisenberg-limited scaling for the estimation precision. We demonstrate that with this method the peaks in the calculated energy spectra are more localized than those calculated by the original QPE-based approaches, suggesting the mitigation of the spectral leakage problem. By analyzing the probability distribution with the entangled phase estimation, we propose a simple scheme to better estimate both the transition energies and the corresponding transition probabilities of the peaks of interest in the spectra. The validity of our prescription is demonstrated by numerical simulations in various quantum many-body problems: the spectral function of a simple electron-plasmon model in condensed-matter physics, the dipole transitions of the H$_2$O molecule in quantum chemistry, and the electromagnetic transitions of the $^6$Li nucleus in nuclear physics.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# ニューラルネットワークによる動的データ評価

Neural Dynamic Data Valuation ( http://arxiv.org/abs/2404.19557v1 )

ライセンス: Link先を確認
Zhangyong Liang, Huanhuan Gao, Ji Zhang, (参考訳) データ・エコノミーとその市場の基礎的な構成要素はデータ・エコノミーである。 効率的で公正なデータ評価が、重要な関心事のトピックとして浮上している。 > 限界貢献に基づく多くのアプローチは、様々な下流タスクにおいて有望な結果を示している。 しかしながら、特定の目的のために与えられたデータセットの有用性や価値を評価するために使用される、多数のユーティリティ関数のトレーニングを必要とするため、計算コストが広く知られている。 その結果、大規模なデータセットを含むデータマーケットプレースにこれらの手法を適用することは不可能であると認識されている。 その結果、重要な問題が発生する: ユーティリティ関数の再トレーニングをどうやって回避できるのか? この問題に対処するために,ニューラルダイナミックデータ評価(NDDV)と呼ばれる最適制御の観点から,新しいデータ評価手法を提案する。 本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。 さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。 特に,本手法では,すべてのデータポイントの値を推定するために1回のみのトレーニングが必要であり,計算効率が大幅に向上する。 さまざまなデータセットとタスクを使用して包括的な実験を行います。 その結果,提案手法は既存の最先端データ評価手法よりも高い値または低値のデータポイントを正確に同定し,より計算効率がよいことを示す。

Data constitute the foundational component of the data economy and its marketplaces. Efficient and fair data valuation has emerged as a topic of significant interest.\ Many approaches based on marginal contribution have shown promising results in various downstream tasks. However, they are well known to be computationally expensive as they require training a large number of utility functions, which are used to evaluate the usefulness or value of a given dataset for a specific purpose. As a result, it has been recognized as infeasible to apply these methods to a data marketplace involving large-scale datasets. Consequently, a critical issue arises: how can the re-training of the utility function be avoided? To address this issue, we propose a novel data valuation method from the perspective of optimal control, named the neural dynamic data valuation (NDDV). Our method has solid theoretical interpretations to accurately identify the data valuation via the sensitivity of the data optimal control state. In addition, we implement a data re-weighting strategy to capture the unique features of data points, ensuring fairness through the interaction between data points and the mean-field states. Notably, our method requires only training once to estimate the value of all data points, significantly improving the computational efficiency. We conduct comprehensive experiments using different datasets and tasks. The results demonstrate that the proposed NDDV method outperforms the existing state-of-the-art data valuation methods in accurately identifying data points with either high or low values and is more computationally efficient.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# RepEval: LLM表現による効果的なテキスト評価

RepEval: Effective Text Evaluation with LLM Representation ( http://arxiv.org/abs/2404.19563v1 )

ライセンス: Link先を確認
Shuqian Sheng, Yi Xu, Tianhang Zhang, Zanwei Shen, Luoyi Fu, Jiaxin Ding, Lei Zhou, Xinbing Wang, Chenghu Zhou, (参考訳) 生成したテキストの自動評価指標は,特にLDMの急速な成長において,NLG分野において重要な役割を担っている。 しかし、既存のメトリクスは特定のシナリオに制限されることが多いため、LLMアプリケーションを拡張する際の評価要件を満たすことは困難である。 そのため、新しい、柔軟な、効果的なメトリクスが要求される。 本研究では,LLM表現の投影を利用して評価を行う最初の指標であるRepEvalを紹介する。 RepEvalはトレーニングに最小限のサンプルペアを必要とし、簡単なプロンプト修正によって、さまざまなタスクに簡単に移行できる。 3つの課題から得られた10個のデータセットの結果から,GPT-4よりも優れた評価結果が得られた。 我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。

Automatic evaluation metrics for generated texts play an important role in the NLG field, especially with the rapid growth of LLMs. However, existing metrics are often limited to specific scenarios, making it challenging to meet the evaluation requirements of expanding LLM applications. Therefore, there is a demand for new, flexible, and effective metrics. In this study, we introduce RepEval, the first metric leveraging the projection of LLM representations for evaluation. RepEval requires minimal sample pairs for training, and through simple prompt modifications, it can easily transition to various tasks. Results on ten datasets from three tasks demonstrate the high effectiveness of our method, which exhibits stronger correlations with human judgments compared to previous metrics, even outperforming GPT-4. Our work underscores the richness of information regarding text quality embedded within LLM representations, offering insights for the development of new metrics.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# 画像品質評価のための因果認識に基づく表現学習

Causal Perception Inspired Representation Learning for Trustworthy Image Quality Assessment ( http://arxiv.org/abs/2404.19567v1 )

ライセンス: Link先を確認
Lei Wang, Desen Yuan, (参考訳) 視覚知覚のモデリングで大きな成功を収めたにもかかわらず、深いニューラルネットワークベースの画像品質評価(IQA)は、敵の摂動に対する脆弱性と説明できないブラックボックス構造のために、現実世界のアプリケーションでは信頼性が低いままである。 本稿では,因果知覚にインスパイアされた表現学習(CPRL)による信頼性の高いIQAモデルの構築と,IQAモデルに対するスコアリフレクション攻撃手法を提案する。 より具体的には、各画像は因果知覚表現(CPR)と非因果認識表現(N-CPR)で構成されていると仮定する。 CPRは主観的品質ラベルの因果関係として機能し、それは知覚できない逆境の摂動に不変である。 逆に、N-CPRは主観的品質ラベルと急激な関連を示し、逆境の摂動と大きく変化する可能性がある。 入力画像からCPRを抽出するため,ソフトなランキングに基づくチャネルワイドアクティベーション機能を開発し,十分な因果的(高い予測精度に有効)かつ必要な(高ロバスト性に有効)深い特徴を仲介し,介入に基づいてミニマックスゲームを用いて最適化する。 4つのベンチマークデータベースの実験により、提案手法は、多くの最先端の敵防衛手法より優れており、明確なモデル解釈を提供することが示された。

Despite great success in modeling visual perception, deep neural network based image quality assessment (IQA) still remains unreliable in real-world applications due to its vulnerability to adversarial perturbations and the inexplicit black-box structure. In this paper, we propose to build a trustworthy IQA model via Causal Perception inspired Representation Learning (CPRL), and a score reflection attack method for IQA model. More specifically, we assume that each image is composed of Causal Perception Representation (CPR) and non-causal perception representation (N-CPR). CPR serves as the causation of the subjective quality label, which is invariant to the imperceptible adversarial perturbations. Inversely, N-CPR presents spurious associations with the subjective quality label, which may significantly change with the adversarial perturbations. To extract the CPR from each input image, we develop a soft ranking based channel-wise activation function to mediate the causally sufficient (beneficial for high prediction accuracy) and necessary (beneficial for high robustness) deep features, and based on intervention employ minimax game to optimize. Experiments on four benchmark databases show that the proposed CPRL method outperforms many state-of-the-art adversarial defense methods and provides explicit model interpretation.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# ポストヒューリスティックアプローチによる脳腫瘍データセットの深層学習モデル説明可能性の向上

Enhancing Deep Learning Model Explainability in Brain Tumor Datasets using Post-Heuristic Approaches ( http://arxiv.org/abs/2404.19568v1 )

ライセンス: Link先を確認
Konstantinos Pasvantis, Eftychios Protopapadakis, (参考訳) 近年, 深層学習モデルの医学的診断への応用が顕著に進んでいる。 それにもかかわらず、注目すべき制限は、意思決定プロセスにおける説明可能性の欠如である。 本研究では,解釈可能性の堅牢性を高めることによって,そのような制約に対処する。 主な焦点は、LIMEライブラリとLIMEイメージ説明器によって生成された説明を精査することである。 これはシナリオ固有のルールに基づいて、srouhg後処理メカニズムが達成される。 脳腫瘍検出に関連する公開データセットを用いて、複数の実験が実施されている。 今回提案したポストヒューリスティックなアプローチは,医学的診断の文脈において,より堅牢で具体的な結果をもたらす重要な進歩を示すものである。

The application of deep learning models in medical diagnosis has showcased considerable efficacy in recent years. Nevertheless, a notable limitation involves the inherent lack of explainability during decision-making processes. This study addresses such a constraint, by enhancing the interpretability robustness. The primary focus is directed towards refining the explanations generated by the LIME Library and LIME image explainer. This is achieved throuhg post-processing mechanisms, based on scenario-specific rules. Multiple experiments have been conducted using publicly accessible datasets related to brain tumor detection. Our proposed post-heuristic approach demonstrates significant advancements, yielding more robust and concrete results, in the context of medical diagnosis.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# AIと人間の監視を再考する「戦争エレファント」

War Elephants: Rethinking Combat AI and Human Oversight ( http://arxiv.org/abs/2404.19573v1 )

ライセンス: Link先を確認
Philip Feldman, Aaron Dant, Harry Dreany, (参考訳) 本稿では,AIの普及が戦闘の性質に与える影響について考察する。 我々は、専門家のためのAIの置換を超越して、補完的な人間と機械の能力が混ざり合ったアプローチに目を向ける。 歴史的および近代的な例を用いて、AI/ML "Proxy Operators"と組み合わせて、人間の"AI Operators"のチームが自律兵器システムを効果的に管理する方法を示す。 補完の原則にアプローチを基づけることで、致命的な自律システムを管理するためのフレキシブルでダイナミックなアプローチを提供します。 我々は、戦場AIが戦場内の行動パターンを監視して致命的な自律システムの性能を評価する、機械学習戦闘の総合的なビジョンを達成するための道を示す。 このアプローチにより、より倫理的になり、機械速度で運用され、純粋に自律的なAIシステムがサポートできるものよりも幅広いダイナミックな戦場条件に対応することができる戦闘システムの開発が可能になる。

This paper explores the changes that pervasive AI is having on the nature of combat. We look beyond the substitution of AI for experts to an approach where complementary human and machine abilities are blended. Using historical and modern examples, we show how autonomous weapons systems can be effectively managed by teams of human "AI Operators" combined with AI/ML "Proxy Operators." By basing our approach on the principles of complementation, we provide for a flexible and dynamic approach to managing lethal autonomous systems. We conclude by presenting a path to achieving an integrated vision of machine-speed combat where the battlefield AI is operated by AI Operators that watch for patterns of behavior within battlefield to assess the performance of lethal autonomous systems. This approach enables the development of combat systems that are likely to be more ethical, operate at machine speed, and are capable of responding to a broader range of dynamic battlefield conditions than any purely autonomous AI system could support.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# リアルタイムビデオストリーミングにおけるQoS改善のための時空間フレームインデックスアルゴリズム

A Spatio-Temporal based Frame Indexing Algorithm for QoS Improvement in Live Low-Motion Video Streaming ( http://arxiv.org/abs/2404.19574v1 )

ライセンス: Link先を確認
Adewale Emmanuel Adedokun, Muhammed Bashir Abdulrazak, Muyideen Momoh Omuya, Habeeb BelloSalau, Bashir Olaniyi Sadiq, (参考訳) ネットワーク上のイベントのリアルタイムビデオストリーミングは、大衆の間で人気を博し続けた。 しかし、システムの品質(QoS)を損なうことなく、割り当てられた帯域の司法的利用を確保する必要がある。 本稿では,サーバからクライアントへの送信前のフレーム内およびフレーム間の冗長性を検知し,排除する,時空間のインデックス化に基づくアプローチを提案する。 提案アルゴリズムの性能評価において考慮すべき2つのシナリオは, 標準的なローモーションビデオとローカルローモーションビデオである。 その結果, バッファサイズと圧縮比は5.13%, 15.8%, 5%, 15.6%改善した。 フレーム構築時間のトレードオフはあるものの、標準フレームインデックスとローカルフレームインデックスの両方がそれぞれ10.8%と8.71%で提案されたスキームを上回っている。

Real-time video life streaming of events over a network continued to gain more popularity among the populace. However, there is need to ensure the judicious utilization of allocated bandwidth without compromising the Quality of Service (QoS) of the system. In this regard, this paper presents an approach based on spatio-temporal frame indexing that detects and eliminate redundancy within and across captured frame, prior transmission from the server to clients. The standard and local low motion videos were the two scenarios considered in evaluating the performance of the proposed algorithm. Results obtained showed that the proposed approach achieved an improvement of 5.13%, 15.8% and 5%, 15.6% improvement in terms of the buffer size and compression ratio. Though with a tradeoff of the frame-built time, where both the standard and local frame indexing outperforms the proposed scheme with 10.8% and 8.71% respectively.
翻訳日:2024-05-01 14:05:41 公開日:2024-04-30
# Sturm-Liouville理論における振動数の非存在について

On the non-existence of oscillation numbers in Sturm-Liouville theory ( http://arxiv.org/abs/2404.19575v1 )

ライセンス: Link先を確認
Angelo B. Mingarelli, (参考訳) 我々は、有限区間上のストゥルム・リウヴィル・ディリクレ問題の非実固有値の存在と、その実固有関数の発振数の非存在([6], p.104, 問題3, 5])を関連づけた古い予想を証明する。 これは一般の場合、前回の [1], [2] の結果、一対の非実固有値の存在は正の固有関数(あるいは基底状態)の存在を意味することを示した。 また、Haupt と Richardson の指数と Haupt と Richardson の数は、100年以上前に発見された Haupt-Richardson の発振定理と、観測された実固有関数の欠発振動数に関する推定を補完する。

We prove an old conjecture that relates the existence of non-real eigenvalues of Sturm-Liouville Dirichlet problems on a finite interval to the non-existence of oscillation numbers of its real eigenfunctions, [[6], p.104, Problems 3 and 5]. This extends to the general case, a previous result in [1], [2] where it was shown that the presence of even one pair of non-real eigenvalues implies the non-existence of a positive eigenfunction (or ground state). We also provide estimates on the Haupt and Richardson indices and Haupt and Richardson numbers thereby complementing the original Sturm oscillation theorem with the Haupt-Richardson oscillation theorem discovered over 100 years ago with estimates on the missing oscillation numbers of the real eigenfunctions observed.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# 高次ダイナミックモード分解と小型データ用視覚変換器を用いた心エコー画像の自動心臓病理診断

Automatic Cardiac Pathology Recognition in Echocardiography Images Using Higher Order Dynamic Mode Decomposition and a Vision Transformer for Small Datasets ( http://arxiv.org/abs/2404.19579v1 )

ライセンス: Link先を確認
Andrés Bell-Navas, Nourelhouda Groun, María Villalba-Orero, Enrique Lara-Pezzi, Jesús Garicano-Mena, Soledad Le Clainche, (参考訳) 心臓病は人間の機能不全の主な国際的原因である。 WHOによると、心臓病のために毎年約1800万人が死亡している。 また、医療データの増加を考慮すると、早期かつ正確な心臓病の認識システムを開発するよう医療業界に強い圧力がかかっている。 本研究では,新しい深層学習フレームワークに基づく自動心臓病理診断システムを提案し,リアルタイム心エコー画像解析を行った。 システムは2段階で動作する。 1つ目は、エコー心電図シーケンスのデータベースに含まれるデータから、あらゆる種類の機械学習ベースのフレームワークのトレーニング段階、より具体的にはディープラーニングで使用できる、アノテーション付き画像の機械学習互換のコレクションに変換する。 これには、医療分野におけるデータ拡張と特徴抽出の両方のために、著者の知識に初めて高次動的モード分解(HODMD)アルゴリズムの使用が含まれる。 第2段階はViT(Vision Transformer)の構築と訓練に焦点を当てており、関連する文献ではほとんど調査されていない。 ViTは、小さなデータセットであっても、スクラッチから効果的なトレーニングに適応している。 設計されたニューラルネットワークは、心エコー画像から画像を分析し、心臓の状態を予測する。 その結果,提案手法の優位性とHODMDアルゴリズムの有効性は,これまでの文献における選択方法である事前学習畳み込みニューラルネットワーク(CNN)よりも優れていた。

Heart diseases are the main international cause of human defunction. According to the WHO, nearly 18 million people decease each year because of heart diseases. Also considering the increase of medical data, much pressure is put on the health industry to develop systems for early and accurate heart disease recognition. In this work, an automatic cardiac pathology recognition system based on a novel deep learning framework is proposed, which analyses in real-time echocardiography video sequences. The system works in two stages. The first one transforms the data included in a database of echocardiography sequences into a machine-learning-compatible collection of annotated images which can be used in the training stage of any kind of machine learning-based framework, and more specifically with deep learning. This includes the use of the Higher Order Dynamic Mode Decomposition (HODMD) algorithm, for the first time to the authors' knowledge, for both data augmentation and feature extraction in the medical field. The second stage is focused on building and training a Vision Transformer (ViT), barely explored in the related literature. The ViT is adapted for an effective training from scratch, even with small datasets. The designed neural network analyses images from an echocardiography sequence to predict the heart state. The results obtained show the superiority of the proposed system and the efficacy of the HODMD algorithm, even outperforming pretrained Convolutional Neural Networks (CNNs), which are so far the method of choice in the literature.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# 縦型フェデレーション学習におけるステルスデータステアリングのためのラベル情報の活用

Leveraging Label Information for Stealthy Data Stealing in Vertical Federated Learning ( http://arxiv.org/abs/2404.19582v1 )

ライセンス: Link先を確認
Duanyi Yao, Songze Li, Xueluan Gong, Sizai Hou, Gaoning Pan, (参考訳) 我々は,電流検出機構を回避する新たな攻撃戦略であるDMAVFLを開発した。 鍵となる考え方は、ラベル情報を完全に活用する補助分類器(以前の攻撃では完全に無視されていた)と識別器を統合することである。一方、ラベル情報は異なるクラスからのサンプルの埋め込みをより良く特徴付けるのに役立ち、再構築性能が向上する。 包括的実験により,DMAVFLは既存の攻撃を著しく上回り,悪意のある攻撃に対するSOTA防御を回避できた。 追加のアブレーション研究と他の防御効果の評価は、DMAVFLの堅牢性と有効性をさらに強調している。

We develop DMAVFL, a novel attack strategy that evades current detection mechanisms. The key idea is to integrate a discriminator with auxiliary classifier that takes a full advantage of the label information (which was completely ignored in previous attacks): on one hand, label information helps to better characterize embeddings of samples from distinct classes, yielding an improved reconstruction performance; on the other hand, computing malicious gradients with label information better mimics the honest training, making the malicious gradients indistinguishable from the honest ones, and the attack much more stealthy. Our comprehensive experiments demonstrate that DMAVFL significantly outperforms existing attacks, and successfully circumvents SOTA defenses for malicious attacks. Additional ablation studies and evaluations on other defenses further underscore the robustness and effectiveness of DMAVFL.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# 今後のPhisat-2ミッションにおける沿岸海域の汚染物質のリアルタイムモニタリングのためのAI技術

AI techniques for near real-time monitoring of contaminants in coastal waters on board future Phisat-2 mission ( http://arxiv.org/abs/2404.19586v1 )

ライセンス: Link先を確認
Francesca Razzano, Pietro Di Stasio, Francesco Mauro, Gabriele Meoni, Marco Esposito, Gilda Schirinzi, Silvia L. Ullo, (参考訳) 提案手法は従来の手法とは違って,衛星リモートセンシング(RS)データ,人工知能(AI)技術,オンボード処理の統合による水質モニタリングにおける画期的なパラダイムを提唱する。 目的は、既存の文献の大きなギャップに対処するため、沿岸海域で汚染物質をほぼリアルタイムで検出することである。 さらに、環境モニタリング、公衆衛生保護、資源保全の大幅な進歩が期待されている。 本研究は,人体と水生生物の健康に影響を及ぼす要因として,濁度とpHパラメータの推定に焦点をあてた。 それでも、設計されたフレームワークは、他の水環境およびそれ以上のパラメータを含むように拡張することができる。 欧州宇宙機関(ESA)のOrbitalAI Challengeへの参加から生まれたこの論文では、Phisat-2ミッションで汚染物質をモニタリングする際、特徴的な機会と課題について述べる。 このミッションの具体的特徴と利用可能なツールについて,著者らが提案した水汚染物質をほぼリアルタイムでモニタリングするための方法論を提示する。 予備的な有望な結果が議論され、現在進行中の成果と今後の成果が紹介される。

Differently from conventional procedures, the proposed solution advocates for a groundbreaking paradigm in water quality monitoring through the integration of satellite Remote Sensing (RS) data, Artificial Intelligence (AI) techniques, and onboard processing. The objective is to offer nearly real-time detection of contaminants in coastal waters addressing a significant gap in the existing literature. Moreover, the expected outcomes include substantial advancements in environmental monitoring, public health protection, and resource conservation. The specific focus of our study is on the estimation of Turbidity and pH parameters, for their implications on human and aquatic health. Nevertheless, the designed framework can be extended to include other parameters of interest in the water environment and beyond. Originating from our participation in the European Space Agency (ESA) OrbitalAI Challenge, this article describes the distinctive opportunities and issues for the contaminants monitoring on the Phisat-2 mission. The specific characteristics of this mission, with the tools made available, will be presented, with the methodology proposed by the authors for the onboard monitoring of water contaminants in near real-time. Preliminary promising results are discussed and in progress and future work introduced.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# スピン鎖における境界効果と量子相

Boundary effect and quantum phases in spin chains ( http://arxiv.org/abs/2404.19588v1 )

ライセンス: Link先を確認
Jinhyeok Ryu, Jaeyoon Cho, (参考訳) 境界効果は多体理論において広く考えられている。 しかし、これは厳密に定義された物理量というよりは概念的な概念である。 同じ物理モデルの2つの基底状態を比較することで境界効果を定量化できるが、これはシステムサイズによってわずかに異なる。 ここでは、密度行列再正規化群計算を用いて、XXZスピン1/2モデルに対して境界効果関数と呼ばれる量を分析する。 モデルにおける3つの量子位相は、境界効果関数の異なる機能形式として表される。 その結果、モデルの量子相転移は境界効果関数の非解析的変化と関連付けられる。 この研究は、基底状態のバルク特性と境界特性の関係に関する新しい視点を提供する。

Boundary effect is a widespread idea in many-body theories. However, it is more of a conceptual notion than a rigorously defined physical quantity. One can quantify the boundary effect by comparing two ground states of the same physical model, which differ only slightly in system size. Here, we analyze the quantity, which we call a boundary effect function, for an XXZ spin-1/2 model using density matrix renormalization group calculations. We find that three quantum phases of the model manifest as different functional forms of the boundary effect function. As a result, the quantum phase transition of the model is associated with a nonanalytic change of the boundary effect function. This work thus provides and concretizes a novel perspective on the relationship between bulk and boundary properties of ground states.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# シェードウパイプライン」によるMLデータ準備コードの相互改善に向けて

Towards Interactively Improving ML Data Preparation Code via "Shadow Pipelines" ( http://arxiv.org/abs/2404.19591v1 )

ライセンス: Link先を確認
Stefan Grafberger, Paul Groth, Sebastian Schelter, (参考訳) データサイエンティストはMLパイプラインを反復的に開発し、潜在的な問題に対して繰り返しパイプラインをスクリーニングし、デバッグし、発見に従ってコードを修正して改善する。 しかし、この手作業は面倒でエラーを起こしやすい。 そこで本研究では,パイプライン改善のための対話的提案を自動生成して,この開発サイクルにおいてデータサイエンティストを支援することを提案する。 我々は、これらの提案をいわゆるシャドウパイプラインで生成するビジョンについて議論し、潜在的な問題を自動的に検出するために修正したオリジナルのパイプラインの隠れたバリエーション、改善のための修正を試し、これらの修正をユーザに提案し、説明します。 我々は、低レイテンシの計算とシャドウパイプラインのメンテナンスを確保するために、インクリメンタルビューのメンテナンスベースの最適化を適用することを計画している。 提案手法の有効性と,提案手法の有効性を実証するための予備実験を行った。

Data scientists develop ML pipelines in an iterative manner: they repeatedly screen a pipeline for potential issues, debug it, and then revise and improve its code according to their findings. However, this manual process is tedious and error-prone. Therefore, we propose to support data scientists during this development cycle with automatically derived interactive suggestions for pipeline improvements. We discuss our vision to generate these suggestions with so-called shadow pipelines, hidden variants of the original pipeline that modify it to auto-detect potential issues, try out modifications for improvements, and suggest and explain these modifications to the user. We envision to apply incremental view maintenance-based optimisations to ensure low-latency computation and maintenance of the shadow pipelines. We conduct preliminary experiments to showcase the feasibility of our envisioned approach and the potential benefits of our proposed optimisations.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# 集束炭素イオンビームを用いた高純度シリコンにおける量子エミッタのプログラム活性化

Programmable activation of quantum emitters in high-purity silicon with focused carbon ion beams ( http://arxiv.org/abs/2404.19592v1 )

ライセンス: Link先を確認
M. Hollenbach, N. Klingner, P. Mazarov, W. Pilz, A. Nadzeyka, F. Mayer, N. V. Abrosimov, L. Bischoff, G. Hlawacek, M. Helm, G. V. Astakhov, (参考訳) ナノスケールでの炭素注入は、シリコン、ダイヤモンド、SiC、hBNなど様々な材料における欠陥ベースの量子ビットの工学において非常に望ましい。 しかし、焦点を絞った炭素イオンビームの欠如は、量子技術への応用の可能性の完全な開示を許さない。 そこで我々は,シリコン,W,G中心の2種類の量子エミッタを同時に生成するために,集束イオンビーム用炭素源の開発と利用を行った。 さらに,100nm未満の解像度でG中心をプログラム的に活性化するための多段階注入プロトコルを適用した。 このアプローチは、カーボンフリーシリコンウェハにおける単一G中心の生成効率を著しく向上するルートを提供する。 我々の実験実験は、高結晶質および同位体純度シリコン中のテレコム量子エミッタのナノスケール工学への重要なステップである。

Carbon implantation at the nanoscale is highly desired for the engineering of defect-based qubits in a variety of materials, including silicon, diamond, SiC and hBN. However, the lack of focused carbon ion beams does not allow for the full disclosure of their potential for application in quantum technologies. Here, we develop and use a carbon source for focused ion beams for the simultaneous creation of two types of quantum emitters in silicon, the W and G centers. Furthermore, we apply a multi-step implantation protocol for the programmable activation of the G centers with sub-100- nm resolution. This approach provides a route for significant enhancement of the creation yield of single G centers in carbon-free silicon wafers. Our experimental demonstration is an important step towards nanoscale engineering of telecom quantum emitters in silicon of high crystalline quality and isotope purity.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# 画像品質評価のための知覚的一貫性制約付きシングルオピニオンスコア校正

Perceptual Constancy Constrained Single Opinion Score Calibration for Image Quality Assessment ( http://arxiv.org/abs/2404.19595v1 )

ライセンス: Link先を確認
Lei Wang, Desen Yuan, (参考訳) 本稿では,画像の平均世論スコア(MOS)を単一世論スコア(SOS)から推定する手法を提案する。 各SOSが正規分布の観測サンプルであり、MOSが未知の期待値であると仮定すると、MOS推論は最大推定問題として定式化され、SOSの確率のモデル化において対画像の知覚的相関が考慮される。 具体的には、自己教師付きバックボーンから学習した品質認識表現を用いて、2つの画像間のMOS差を予測するための学習可能な相対的品質尺度を導入する。 そして、現在の画像のMOSに対する最大推定値を、他の参照画像のMOSの推定値とその相対的品質の和で表す。 理想的には、どの画像が参照として選択されたとしても、現在の画像のMOSは変化し続け、知覚的コンタシー制約キャリブレーション(PC3)と呼ばれる。 最後に、バックプロパゲーションとニュートン法を用いて、相対的品質測定パラメータと現在の画像推定MOSをそれぞれ最適化する。 実験の結果,提案手法は偏りのあるSOSの校正に有効であり,SOSのみが利用できる場合のIQAモデル学習を大幅に改善することがわかった。

In this paper, we propose a highly efficient method to estimate an image's mean opinion score (MOS) from a single opinion score (SOS). Assuming that each SOS is the observed sample of a normal distribution and the MOS is its unknown expectation, the MOS inference is formulated as a maximum likelihood estimation problem, where the perceptual correlation of pairwise images is considered in modeling the likelihood of SOS. More specifically, by means of the quality-aware representations learned from the self-supervised backbone, we introduce a learnable relative quality measure to predict the MOS difference between two images. Then, the current image's maximum likelihood estimation towards MOS is represented by the sum of another reference image's estimated MOS and their relative quality. Ideally, no matter which image is selected as the reference, the MOS of the current image should remain unchanged, which is termed perceptual cons tancy constrained calibration (PC3). Finally, we alternatively optimize the relative quality measure's parameter and the current image's estimated MOS via backpropagation and Newton's method respectively. Experiments show that the proposed method is efficient in calibrating the biased SOS and significantly improves IQA model learning when only SOSs are available.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# カーネルに基づく因果バランシングを用いたデバイアス付き協調フィルタリング

Debiased Collaborative Filtering with Kernel-Based Causal Balancing ( http://arxiv.org/abs/2404.19596v1 )

ライセンス: Link先を確認
Haoxuan Li, Chunyuan Zheng, Yanghao Xiao, Peng Wu, Zhi Geng, Xu Chen, Peng Cui, (参考訳) バイアス付き協調フィルタリングは、観測データセットの異なるバイアスを取り除き、バイアスのない予測モデルを学ぶことを目的としている。 この問題を解決するために, 観測事例を再重み付けすることで, 観測サンプル分布を目標値に調整する, 正確かつ効果的な手法の1つである。 理想的には、適合性のスコアは因果バランスの制約で学ぶべきである。 しかし、既存の手法は通常そのような制約を無視したり、不合理な近似で実装するが、これは学習された確率スコアの精度に影響を与える可能性がある。 本稿では,このギャップを埋めるために,まず因果バランス要件と既存手法とのギャップを分析する。 これらのギャップに着想を得て、Hilbert空間を再現する際のバランス関数を近似し、カーネル関数の普遍性と表現定理に基づいて因果バランス制約をよりよく満足できることを示す。 一方,カーネル関数を適応的にバランスさせるアルゴリズムを提案し,提案手法の一般化誤差境界を理論的に解析する。 我々は,提案手法の有効性を実証する広範な実験を行い,本研究の方向性を促進するため,https://github.com/haoxuanli-pku/ICLR24-Kernel-Balancingでプロジェクトを公開した。

Debiased collaborative filtering aims to learn an unbiased prediction model by removing different biases in observational datasets. To solve this problem, one of the simple and effective methods is based on the propensity score, which adjusts the observational sample distribution to the target one by reweighting observed instances. Ideally, propensity scores should be learned with causal balancing constraints. However, existing methods usually ignore such constraints or implement them with unreasonable approximations, which may affect the accuracy of the learned propensity scores. To bridge this gap, in this paper, we first analyze the gaps between the causal balancing requirements and existing methods such as learning the propensity with cross-entropy loss or manually selecting functions to balance. Inspired by these gaps, we propose to approximate the balancing functions in reproducing kernel Hilbert space and demonstrate that, based on the universal property and representer theorem of kernel functions, the causal balancing constraints can be better satisfied. Meanwhile, we propose an algorithm that adaptively balances the kernel function and theoretically analyze the generalization error bound of our methods. We conduct extensive experiments to demonstrate the effectiveness of our methods, and to promote this research direction, we have released our project at https://github.com/haoxuanli-pku/ICLR24-Kernel-Balancing.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# トランスファー問題:教育指導によるLDMにおけるバックドアアタックの言語間トランスファー可能性

Transferring Troubles: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning ( http://arxiv.org/abs/2404.19597v1 )

ライセンス: Link先を確認
Xuanli He, Jun Wang, Qiongkai Xu, Pasquale Minervini, Pontus Stenetorp, Benjamin I. P. Rubinstein, Trevor Cohn, (参考訳) 英語中心の大規模言語モデル(LLM)に対するバックドア攻撃は、トレーニング中に悪意ある振る舞いを埋め込んで、悪意のあるアウトプットを引き起こす特定の条件下でアクティベートすることで、広く研究されている。 しかし、バックドア攻撃が多言語モデルに与える影響は未解明のままである。 本研究は,多言語 LLM に対する言語間バックドア攻撃,特に1つか2つの言語における命令学習データの毒性が,命令学習データが有毒でない言語におけるアウトプットに与える影響について検討する。 その単純さにもかかわらず,本手法はmT5,BLOOM,GPT-3.5-turboなどのモデルにおいて顕著な有効性を示した。 また,Llama2,Llama3,Gemmaなどの英語データで事前学習したLLMにも適用可能な,移動可能な言語間バックドア攻撃に対する感受性が増大していることが示唆された。 さらに,本実験では, パラフレージング後もトリガーが動作可能であること, バックドア機構は, 25言語にわたる言語間応答設定において高い効果を示し, 平均攻撃成功率50%を達成した。 本研究の目的は,現在の多言語 LLM における脆弱性と重大なセキュリティリスクを明らかにすることであり,対象とするセキュリティ対策の緊急の必要性を浮き彫りにすることである。

The implications of backdoor attacks on English-centric large language models (LLMs) have been widely examined - such attacks can be achieved by embedding malicious behaviors during training and activated under specific conditions that trigger malicious outputs. However, the impact of backdoor attacks on multilingual models remains under-explored. Our research focuses on cross-lingual backdoor attacks against multilingual LLMs, particularly investigating how poisoning the instruction-tuning data in one or two languages can affect the outputs in languages whose instruction-tuning data was not poisoned. Despite its simplicity, our empirical analysis reveals that our method exhibits remarkable efficacy in models like mT5, BLOOM, and GPT-3.5-turbo, with high attack success rates, surpassing 95% in several languages across various scenarios. Alarmingly, our findings also indicate that larger models show increased susceptibility to transferable cross-lingual backdoor attacks, which also applies to LLMs predominantly pre-trained on English data, such as Llama2, Llama3, and Gemma. Moreover, our experiments show that triggers can still work even after paraphrasing, and the backdoor mechanism proves highly effective in cross-lingual response settings across 25 languages, achieving an average attack success rate of 50%. Our study aims to highlight the vulnerabilities and significant security risks present in current multilingual LLMs, underscoring the emergent need for targeted security measures.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# 骨転移解析における人工知能の現状と課題

Artificial Intelligence in Bone Metastasis Analysis: Current Advancements, Opportunities and Challenges ( http://arxiv.org/abs/2404.19598v1 )

ライセンス: Link先を確認
Marwa Afnouch, Fares Bougourzi, Olfa Gaddour, Fadi Dornaika, Abdelmalik Taleb-Ahmed, (参考訳) 近年、人工知能(AI)は医学、特にコンピュータビジョンや深層学習手法の進歩によって駆動される医用画像の分析に広く用いられている。 これは、骨の共通かつ複雑な悪性度である骨転移(BM)などの疾患によって引き起こされる課題を克服する上で特に重要である。 実際、BM分析のための腫瘍画像に機械学習(ML)技術を開発することへの関心が高まっている。 人工知能を用いたBM分析の現状と進歩を概観するために,PRISMAガイドラインに従って概観する。 まず, BMの臨床的, 腫瘍学的側面と, 医用画像のモダリティについて考察し, その利点と限界について考察する。 次に, 分類, 検出, セグメンテーションといった主なBM分析タスクを考慮し, 近代的アプローチに焦点をあてる。 その結果,ML 技術は BM 解析において有望な性能を達成でき,臨床効率の向上と時間的・費用的制約への対処に有意義な可能性を示唆した。 さらに、MLツールの臨床的パフォーマンスを検証し、定期的な臨床実践への統合を促進するために、さらなる研究が必要である。

In recent years, Artificial Intelligence (AI) has been widely used in medicine, particularly in the analysis of medical imaging, which has been driven by advances in computer vision and deep learning methods. This is particularly important in overcoming the challenges posed by diseases such as Bone Metastases (BM), a common and complex malignancy of the bones. Indeed, there have been an increasing interest in developing Machine Learning (ML) techniques into oncologic imaging for BM analysis. In order to provide a comprehensive overview of the current state-of-the-art and advancements for BM analysis using artificial intelligence, this review is conducted with the accordance with PRISMA guidelines. Firstly, this review highlights the clinical and oncologic perspectives of BM and the used medical imaging modalities, with discussing their advantages and limitations. Then the review focuses on modern approaches with considering the main BM analysis tasks, which includes: classification, detection and segmentation. The results analysis show that ML technologies can achieve promising performance for BM analysis and have significant potential to improve clinician efficiency and cope with time and cost limitations. Furthermore, there are requirements for further research to validate the clinical performance of ML tools and facilitate their integration into routine clinical practice.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# X線拡散:断面拡散モデルを用いた1つの画像から詳細な3次元MRIボリュームを生成する

X-Diffusion: Generating Detailed 3D MRI Volumes From a Single Image Using Cross-Sectional Diffusion Models ( http://arxiv.org/abs/2404.19604v1 )

ライセンス: Link先を確認
Emmanuelle Bourigault, Abdullah Hamdi, Amir Jamaludin, (参考訳) 本研究では磁気共鳴画像(MRI)データに適した断面拡散モデルであるX-Diffusionを提案する。 X-Diffusionは、1つのMRIスライスから、または数個のMRIスライスからMRI全体のボリュームを生成することができる。 その独特さは、MRIボリューム上のX拡散の、新しい視野条件訓練と推論にあり、一般化されたMRI学習を可能にしている。 我々の評価は、BRATSデータセットの脳腫瘍MRIとUK BiobankデータセットのフルボディMRIの両方に及んでいる。 英国バイオバンクのデータセットにおけるDXA(Dual-Eergy X-ray Absorptiometry)とMRIモダリティを使って、X-Diffusionは1つのフルボディDXAから詳細な3D MRIボリュームを生成することができる。 注目すべきは、結果として得られたMRIは、目に見えない例(大きなマージンで最先端の結果を追い越す)の精度だけでなく、腫瘍プロファイル、脊椎曲率、脳の容積など、オリジナルのMRIの本質的な特徴を完璧に保持していることだ。 さらに、MRIデータセット上のトレーニングされたX-拡散モデルは、領域外(例えば、脳でトレーニングされたとしても膝MRIを生成する)の一般化能力を達成する。 コードはプロジェクトのWebサイト https://emmanuelleb985.github.io/XDiffusion/ で公開されている。

In this work, we present X-Diffusion, a cross-sectional diffusion model tailored for Magnetic Resonance Imaging (MRI) data. X-Diffusion is capable of generating the entire MRI volume from just a single MRI slice or optionally from few multiple slices, setting new benchmarks in the precision of synthesized MRIs from extremely sparse observations. The uniqueness lies in the novel view-conditional training and inference of X-Diffusion on MRI volumes, allowing for generalized MRI learning. Our evaluations span both brain tumour MRIs from the BRATS dataset and full-body MRIs from the UK Biobank dataset. Utilizing the paired pre-registered Dual-energy X-ray Absorptiometry (DXA) and MRI modalities in the UK Biobank dataset, X-Diffusion is able to generate detailed 3D MRI volume from a single full-body DXA. Remarkably, the resultant MRIs not only stand out in precision on unseen examples (surpassing state-of-the-art results by large margins) but also flawlessly retain essential features of the original MRI, including tumour profiles, spine curvature, brain volume, and beyond. Furthermore, the trained X-Diffusion model on the MRI datasets attains a generalization capacity out-of-domain (e.g. generating knee MRIs even though it is trained on brains). The code is available on the project website https://emmanuelleb985.github.io/XDiffusion/ .
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# データ駆動型可逆ニューラルサロゲートによる大気透過

Data-Driven Invertible Neural Surrogates of Atmospheric Transmission ( http://arxiv.org/abs/2404.19605v1 )

ライセンス: Link先を確認
James Koch, Brenda Forland, Bruce Bernacki, Timothy Doster, Tegan Emerson, (参考訳) 本稿では,スペクトル場から大気透過プロファイルを推定するための枠組みを提案する。 このフレームワークは、自動微分と微分可能なプログラミングによって自動チューニングされる軽量な物理ベースのシミュレータを利用して、観測されたデータをモデル化するための代理的な大気プロファイルを構築する。 方法論の有効性を実証する。 (一)大気補正を行うこと 二 各種モード間のスペクトルデータ(例えば、表面及びセンサにおける放射率及び反射率)のリキャスト及び 三 吸収帯等の大気透過プロファイルとその相対等級を推定すること。

We present a framework for inferring an atmospheric transmission profile from a spectral scene. This framework leverages a lightweight, physics-based simulator that is automatically tuned - by virtue of autodifferentiation and differentiable programming - to construct a surrogate atmospheric profile to model the observed data. We demonstrate utility of the methodology by (i) performing atmospheric correction, (ii) recasting spectral data between various modalities (e.g. radiance and reflectance at the surface and at the sensor), and (iii) inferring atmospheric transmission profiles, such as absorbing bands and their relative magnitudes.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# クラウドを通して見る: Prithvi Foundation Modelによるクラウドギャップインプット

Seeing Through the Clouds: Cloud Gap Imputation with Prithvi Foundation Model ( http://arxiv.org/abs/2404.19609v1 )

ライセンス: Link先を確認
Denys Godwin, Hanxi Li, Michael Cecil, Hamed Alemohammad, (参考訳) マルチスペクトル衛星画像における曇り画素の充填は、正確なデータ解析と下流アプリケーション、特に時系列データを必要とするタスクに不可欠である。 この問題に対処するために,基礎的な視覚変換器(ViT)モデルと基本条件生成適応ネットワーク(CGAN)モデルを比較した。 現実のクラウドマスクを用いて衛星画像の時系列をランダムにマスキングし、各モデルをトレーニングし、欠落したピクセルを再構築する。 ViTモデルは事前訓練されたモデルから微調整され、CGANはゼロから訓練される。 構造的類似度指数や平均絶対誤差などの定量的評価指標と質的視覚分析を用いて,計算精度と文脈保存性を評価する。

Filling cloudy pixels in multispectral satellite imagery is essential for accurate data analysis and downstream applications, especially for tasks which require time series data. To address this issue, we compare the performance of a foundational Vision Transformer (ViT) model with a baseline Conditional Generative Adversarial Network (CGAN) model for missing value imputation in time series of multispectral satellite imagery. We randomly mask time series of satellite images using real-world cloud masks and train each model to reconstruct the missing pixels. The ViT model is fine-tuned from a pretrained model, while the CGAN is trained from scratch. Using quantitative evaluation metrics such as structural similarity index and mean absolute error as well as qualitative visual analysis, we assess imputation accuracy and contextual preservation.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# COTS: RESTfulアプリケーションのためのコネクテッドなOpenAPIテスト合成

COTS: Connected OpenAPI Test Synthesis for RESTful Applications ( http://arxiv.org/abs/2404.19614v1 )

ライセンス: Link先を確認
Christian Bartolo Burlò, Adrian Francalanza, Alceste Scalas, Emilio Tuosto, (参考訳) RESTfulアプリケーションをテストするための新しいモデル駆動アプローチを提案する。 紹介 (i)OpenAPI仕様とドメイン固有言語 (ii)方法論をサポートするためのツール。 私たちのDSLはセッションタイプにインスパイアされ、RESTクライアントとサーバ間の通信プロトコルのモデリングを可能にします。 私たちのツールはCOTSと呼ばれ、(ランダムに)モデルベースのテスト実行を生成し、ソフトウェア欠陥を報告します。 いくつかのオープンソースアプリケーションをテストするため,本手法の有効性を評価した。 私たちの方法論は、REST APIの欠陥を識別し、手作りのテストスイートに比べて、同等または優れたコードカバレッジを実現できます。

We present a novel model-driven approach for testing RESTful applications. We introduce a (i) domain-specific language for OpenAPI specifications and (ii) a tool to support our methodology. Our DSL is inspired by session types and enables the modelling of communication protocols between a REST client and server. Our tool, dubbed COTS, generates (randomised) model-based test executions and reports software defects. We evaluate the effectiveness of our approach by applying it to test several open source applications. Our findings indicate that our methodology can identify nuanced defects in REST APIs and achieve comparable or superior code coverage when compared to much larger handcrafted test suites.
翻訳日:2024-05-01 13:55:56 公開日:2024-04-30
# SemiPL: イベント音源定位のための半教師付き手法

SemiPL: A Semi-supervised Method for Event Sound Source Localization ( http://arxiv.org/abs/2404.19615v1 )

ライセンス: Link先を確認
Yue Li, Baiqiao Yin, Jinfu Liu, Jiajun Wen, Jiaying Lin, Mengyuan Liu, (参考訳) 近年,様々な分野においてイベント音源定位が広く適用されている。 最近の研究は、典型的には対照的な学習フレームワークに依存しており、素晴らしいパフォーマンスを示している。 しかし、全ての作業は大きな比較的単純なデータセットに基づいている。 また、多くのアプリケーションにおける混乱したイベント(例えば、群衆管理、緊急対応サービスなど)において、人間の行動(人々の行動や相互作用)、声、音を理解し、分析することが重要です。 本稿では,既存のモデルをより複雑なデータセットに適用し,モデルに対するパラメータの影響を調査し,半教師付き改善手法であるSemiPLを提案する。 データ量の増加とラベル品質の影響により、自己教師型学習は不可能な傾向にある。 実験により,パラメータ調整が既存モデルに肯定的な影響を及ぼすことが示された。 特にSSPLは、提供された結果と比較して12.2%のcIoUと0.56%のAUCの改善を達成した。 コードは、https://github.com/ly245422/SSPLで入手できる。

In recent years, Event Sound Source Localization has been widely applied in various fields. Recent works typically relying on the contrastive learning framework show impressive performance. However, all work is based on large relatively simple datasets. It's also crucial to understand and analyze human behaviors (actions and interactions of people), voices, and sounds in chaotic events in many applications, e.g., crowd management, and emergency response services. In this paper, we apply the existing model to a more complex dataset, explore the influence of parameters on the model, and propose a semi-supervised improvement method SemiPL. With the increase in data quantity and the influence of label quality, self-supervised learning will be an unstoppable trend. The experiment shows that the parameter adjustment will positively affect the existing model. In particular, SSPL achieved an improvement of 12.2% cIoU and 0.56% AUC in Chaotic World compared to the results provided. The code is available at: https://github.com/ly245422/SSPL
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# 近隣効果に気をつけて--干渉下における選択バイアスのモデル化

Be Aware of the Neighborhood Effect: Modeling Selection Bias under Interference ( http://arxiv.org/abs/2404.19620v1 )

ライセンス: Link先を確認
Haoxuan Li, Chunyuan Zheng, Sihao Ding, Peng Wu, Zhi Geng, Fuli Feng, Xiangnan He, (参考訳) 推薦システムにおける選択バイアスは,システムフィルタリングの推奨プロセスとユーザ選択の対話的プロセスから生じる。 従来の多くの研究は、予測モデルのバイアスのない学習を実現するために選択バイアスに対処することに重点を置いてきたが、与えられたユーザとイズムのペアに対する潜在的な結果が、他のユーザとイズムのペアに割り当てられた治療によって異なるという事実を無視している。 このギャップを埋めるために,本論文では,因果推論の観点から近隣効果を干渉問題として公式化し,周辺効果を捉えるための処理表現を導入する。 そこで本研究では,近傍効果の存在下での選択バイアスに対処できる,新しい理想的損失を提案する。 さらに,提案した理想損失を推定するための2つの新しい推定器を開発した。 提案手法は,選択バイアスと近傍効果の両方が存在する場合に非バイアス学習が可能であり,既存の手法にはバイアスがあることを示す。 提案手法の有効性を実証するために, 半合成および実世界の大規模実験を行った。

Selection bias in recommender system arises from the recommendation process of system filtering and the interactive process of user selection. Many previous studies have focused on addressing selection bias to achieve unbiased learning of the prediction model, but ignore the fact that potential outcomes for a given user-item pair may vary with the treatments assigned to other user-item pairs, named neighborhood effect. To fill the gap, this paper formally formulates the neighborhood effect as an interference problem from the perspective of causal inference and introduces a treatment representation to capture the neighborhood effect. On this basis, we propose a novel ideal loss that can be used to deal with selection bias in the presence of neighborhood effect. We further develop two new estimators for estimating the proposed ideal loss. We theoretically establish the connection between the proposed and previous debiasing methods ignoring the neighborhood effect, showing that the proposed methods can achieve unbiased learning when both selection bias and neighborhood effect are present, while the existing methods are biased. Extensive semi-synthetic and real-world experiments are conducted to demonstrate the effectiveness of the proposed methods.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# Fake it to make it: using synthetic data to improve the data lack in joint multimodal speech-and-gesture synthesis

Fake it to make it: Using synthetic data to remedy the data shortage in joint multimodal speech-and-gesture synthesis ( http://arxiv.org/abs/2404.19622v1 )

ライセンス: Link先を確認
Shivam Mehta, Anna Deichler, Jim O'Regan, Birger Moëll, Jonas Beskow, Gustav Eje Henter, Simon Alexanderson, (参考訳) 対面会話に携わる人間は、言語と非言語の両方を同時にコミュニケーションするが、音声の合成とテキストからの3Dジェスチャーの同時合成の方法は、新しくて新しい分野である。 これらの技術は、より人間らしく、効率的で、表現力があり、堅牢な合成通信を約束するが、既存の手法は、すべての構成モダリティからの並列データに基づいて訓練されているため、現在、適切な大規模なデータセットが不足していることに支えられている。 学生-教員法に着想を得て,追加の教材を簡易に合成することで,データ不足に対する直接的な解決法を提案する。 具体的には、大規模なデータセットで訓練された単調合成モデルを用いて、マルチモーダル(しかし合成)並列トレーニングデータを作成し、その材料上で共同合成モデルを事前訓練する。 さらに,現場における最先端の手法に,より優れた制御可能な韻律モデリングを付加した新しい合成アーキテクチャを提案する。 本研究は,大量の合成データに対する事前学習により,多モーダルモデルにより合成された音声と動きの質が向上することを確認した。 https://shivammehta25.github.io/MAGI/ を参照。

Although humans engaged in face-to-face conversation simultaneously communicate both verbally and non-verbally, methods for joint and unified synthesis of speech audio and co-speech 3D gesture motion from text are a new and emerging field. These technologies hold great promise for more human-like, efficient, expressive, and robust synthetic communication, but are currently held back by the lack of suitably large datasets, as existing methods are trained on parallel data from all constituent modalities. Inspired by student-teacher methods, we propose a straightforward solution to the data shortage, by simply synthesising additional training material. Specifically, we use unimodal synthesis models trained on large datasets to create multimodal (but synthetic) parallel training data, and then pre-train a joint synthesis model on that material. In addition, we propose a new synthesis architecture that adds better and more controllable prosody modelling to the state-of-the-art method in the field. Our results confirm that pre-training on large amounts of synthetic data improves the quality of both the speech and the motion synthesised by the multimodal model, with the proposed architecture yielding further benefits when pre-trained on the synthetic data. See https://shivammehta25.github.io/MAGI/ for example output.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# 大規模変圧器による気象予報のための学習レシピの分析と探索

Analyzing and Exploring Training Recipes for Large-Scale Transformer-Based Weather Prediction ( http://arxiv.org/abs/2404.19630v1 )

ライセンス: Link先を確認
Jared D. Willard, Peter Harrington, Shashank Subramanian, Ankur Mahesh, Travis A. O'Brien, William D. Collins, (参考訳) 数値天気予報(NWP)における深層学習(DL)の急速な増加は、従来の物理学に基づくNWPと比較して、大気変数を同等または優れた技術で予測するモデルの普及につながった。 しかし、これらの主要なDLモデルのうち、使用されるトレーニング設定とアーキテクチャの両方に幅広い違いがある。 さらに、徹底的なアブレーション研究が欠如しているため、どのコンポーネントが成功に最も重要かを特定することは困難である。 本研究では,比較的市販のアーキテクチャ,簡単な訓練手順,適度な計算予算を伴っても高い予測能力が得られることを示す。 具体的には、ERA5データに基づいて最小修正SwinV2変換器をトレーニングし、IFSと比較すると優れた予測技術が得られることを確かめる。 トレーニングパイプラインの重要な側面について,さまざまな損失関数,モデルサイズと深さを探索し,その効果を調べるために多段階の微調整を行う。 また、典型的なACCやRMSE以上のメトリクスを用いてモデル性能を検証し、モデルサイズによるパフォーマンスのスケールについて検討する。

The rapid rise of deep learning (DL) in numerical weather prediction (NWP) has led to a proliferation of models which forecast atmospheric variables with comparable or superior skill than traditional physics-based NWP. However, among these leading DL models, there is a wide variance in both the training settings and architecture used. Further, the lack of thorough ablation studies makes it hard to discern which components are most critical to success. In this work, we show that it is possible to attain high forecast skill even with relatively off-the-shelf architectures, simple training procedures, and moderate compute budgets. Specifically, we train a minimally modified SwinV2 transformer on ERA5 data, and find that it attains superior forecast skill when compared against IFS. We present some ablations on key aspects of the training pipeline, exploring different loss functions, model sizes and depths, and multi-step fine-tuning to investigate their effect. We also examine the model performance with metrics beyond the typical ACC and RMSE, and investigate how the performance scales with model size.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# ニューラルネットワークによるバイナリ記述のトレーニングについて

On Training a Neural Network to Explain Binaries ( http://arxiv.org/abs/2404.19631v1 )

ライセンス: Link先を確認
Alexander Interrante-Grant, Andy Davis, Heather Preslier, Tim Leek, (参考訳) 本研究では,バイナリコード理解のタスクにおいて,ディープニューラルネットワークをトレーニングする可能性について検討する。 具体的には、ネットワークは入力として、バイナリから直接派生した機能と、リバースエンジニアがクローズドソースソフトウェアの性能を調査するのを助けるために、機能の英文記述を出力する。 ソースコードの要約作業に大規模言語モデル(生成AI)を適用した最近の成功を考えると、これは有望な方向と思われる。 しかし、利用可能なデータセットについての最初の調査では、これらの複雑なモデルをトレーニングするのに十分な品質とボリュームは見つからなかった。 代わりに、1.1Mエントリを含むStack Overflowのキャプチャから派生した、独自のデータセットを構築します。 本研究の主な成果は,入力の埋め込み空間における1つの距離と出力の埋め込み空間における2つの距離の相関を用いた新しいデータセット評価手法である。 直感的には、2つのサンプルが入力埋め込み空間に近接している場合、出力は出力埋め込み空間にも近接する。 このEmbedding Distance correlation (EDC) テストは高度に診断されており、我々の収集したデータセットと既存のオープンソースデータセットは、距離の相関がよくないため、低品質であることを示している。 我々は、EDCの一般的な適用性を探り、定性的に知られた良いデータセットと、合成的に知られた悪いデータセットに応用し、データセット値の信頼性の高い指標であることがわかった。

In this work, we begin to investigate the possibility of training a deep neural network on the task of binary code understanding. Specifically, the network would take, as input, features derived directly from binaries and output English descriptions of functionality to aid a reverse engineer in investigating the capabilities of a piece of closed-source software, be it malicious or benign. Given recent success in applying large language models (generative AI) to the task of source code summarization, this seems a promising direction. However, in our initial survey of the available datasets, we found nothing of sufficiently high quality and volume to train these complex models. Instead, we build our own dataset derived from a capture of Stack Overflow containing 1.1M entries. A major result of our work is a novel dataset evaluation method using the correlation between two distances on sample pairs: one distance in the embedding space of inputs and the other in the embedding space of outputs. Intuitively, if two samples have inputs close in the input embedding space, their outputs should also be close in the output embedding space. We found this Embedding Distance Correlation (EDC) test to be highly diagnostic, indicating that our collected dataset and several existing open-source datasets are of low quality as the distances are not well correlated. We proceed to explore the general applicability of EDC, applying it to a number of qualitatively known good datasets and a number of synthetically known bad ones and found it to be a reliable indicator of dataset value.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# SEArch: サービスベースのソフトウェアシステムの実行基盤

SEArch: an execution infrastructure for service-based software systems ( http://arxiv.org/abs/2404.19633v1 )

ライセンス: Link先を確認
Carlos G. Lopez Pombo, Pablo Montepagano, Emilio Tuosto, (参考訳) 20世紀初頭に開始されたモノリシックなアプリケーションから、分散ソフトウェアの構成へのシフトは、ソフトウェア・アズ・ア・サービスのビジョンに基づいている。 RESTful APIなどの多くの技術で見られるこのビジョンは、分散計算リソースを提供する(アクセスする)インフラストラクチャを通じて、グローバルに利用可能なサービスを促進する。 Choreographiesは、ローカル計算を抽象化し、メッセージパッシングとの相互運用性をレンダリングすることで、このビジョンをサポートすることができる。 このコレオグラフィーのパラダイムに従って,ソフトウェアアーチファクトの透過的動的再構成を実現する言語に依存しない実行基盤であるサービス実行アーキテクチャ(Service Execution Architecture)の後,SEArchを開発した。 ChoreographicメカニズムはSEArchで相互運用性のコントラクトを指定するために使用され、実行時にサービスの自動ディスカバリとバインディングに必要なサポートを提供する。

The shift from monolithic applications to composition of distributed software initiated in the early twentieth, is based on the vision of software-as-service. This vision, found in many technologies such as RESTful APIs, advocates globally available services cooperating through an infrastructure providing (access to) distributed computational resources. Choreographies can support this vision by abstracting away local computation and rendering interoperability with message-passing: cooperation is achieved by sending and receiving messages. Following this choreographic paradigm, we develop SEArch, after Service Execution Architecture, a language-independent execution infrastructure capable of performing transparent dynamic reconfiguration of software artefacts. Choreographic mechanisms are used in SEArch to specify interoperability contracts, thus providing the support needed for automatic discovery and binding of services at runtime.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# ESP-Zero:極小点雲におけるゼロショット分類の教師なし強化

ESP-Zero: Unsupervised enhancement of zero-shot classification for Extremely Sparse Point cloud ( http://arxiv.org/abs/2404.19639v1 )

ライセンス: Link先を確認
Jiayi Han, Zidi Cao, Weibo Zheng, Xiangguo Zhou, Xiangjian He, Yuanfang Zhang, Daisen Wei, (参考訳) 近年、ゼロショット学習は、柔軟性と汎用性から多くの研究者の関心を集めている。 CLIPのスキーマに従って、3次元オブジェクト理解のための点雲のゼロショット分類を実現するために、多くのアプローチが提案されている。 しかし、現実世界では、ポイントクラウドは極めて疎結合であり、3Dポイントクラウドエンコーダの有効性を劇的に制限し、ポイントクラウド機能やテキスト埋め込みの誤調整をもたらす可能性がある。 そこで本研究では,極小点雲に対する点群エンコーダの高度化を目的とした教師なしモデル適応手法を提案する。 本稿では,学習可能なトークンとアテンションブロックを追加して事前学習した自己注意層を拡張し,ポイントクラウド特徴とテキスト埋め込みの整合性を維持しつつ,ポイントクラウド特徴を効果的に修正する,新たなフューズドクロスアテンション層を提案する。 また,修正された特徴を,観察されたテキスト埋め込みにオーバーフィットすることなく,無関係なテキスト埋め込みから切り離すことを推奨する,補完的な学習ベースの自己蒸留スキーマを提案する。 大規模な実験により、提案手法は極端にスパースな点雲のゼロショット能力を効果的に向上し、他の最先端のモデル適応アプローチを圧倒することを示した。

In recent years, zero-shot learning has attracted the focus of many researchers, due to its flexibility and generality. Many approaches have been proposed to achieve the zero-shot classification of the point clouds for 3D object understanding, following the schema of CLIP. However, in the real world, the point clouds could be extremely sparse, dramatically limiting the effectiveness of the 3D point cloud encoders, and resulting in the misalignment of point cloud features and text embeddings. To the point cloud encoders to fit the extremely sparse point clouds without re-running the pre-training procedure which could be time-consuming and expensive, in this work, we propose an unsupervised model adaptation approach to enhance the point cloud encoder for the extremely sparse point clouds. We propose a novel fused-cross attention layer that expands the pre-trained self-attention layer with additional learnable tokens and attention blocks, which effectively modifies the point cloud features while maintaining the alignment between point cloud features and text embeddings. We also propose a complementary learning-based self-distillation schema that encourages the modified features to be pulled apart from the irrelevant text embeddings without overfitting the feature space to the observed text embeddings. Extensive experiments demonstrate that the proposed approach effectively increases the zero-shot capability on extremely sparse point clouds, and overwhelms other state-of-the-art model adaptation approaches.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# サイバーセキュリティがCE認定の自律林業機械へ

Cybersecurity Pathways Towards CE-Certified Autonomous Forestry Machines ( http://arxiv.org/abs/2404.19643v1 )

ライセンス: Link先を確認
Mazen Mohamad, Ramana Reddy Avula, Peter Folkesson, Pierre Kleberger, Aria Mirzai, Martin Skoglund, Marvin Damschen, (参考訳) 自律機械におけるサイバーセキュリティの重要性の高まりは、森林地帯で明らかになりつつある。 森林作業員は、複数のシステムやシステムの関与により、より複雑になりつつある。 したがって、林業領域における自律システムのサイバーセキュリティ問題に対処する方法を検討する必要がある。 文献レビューと類似ドメインの標準の適用、およびドメインの専門家との協調セッションを用いて、サイバーセキュリティと安全性に焦点を当てたCE認定の自律林業機械への挑戦を明らかにする。 さらに、安全とサイバーセキュリティリスク評価の関係とAIとの関係についても論じ、その保証のための総合的な方法論の必要性を強調した。

The increased importance of cybersecurity in autonomous machinery is becoming evident in the forestry domain. Forestry worksites are becoming more complex with the involvement of multiple systems and system of systems. Hence, there is a need to investigate how to address cybersecurity challenges for autonomous systems of systems in the forestry domain. Using a literature review and adapting standards from similar domains, as well as collaborative sessions with domain experts, we identify challenges towards CE-certified autonomous forestry machines focusing on cybersecurity and safety. Furthermore, we discuss the relationship between safety and cybersecurity risk assessment and their relation to AI, highlighting the need for a holistic methodology for their assurance.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# MetaCoCo: すっきりした相関性を備えた新しいFew-Shot分類ベンチマーク

MetaCoCo: A New Few-Shot Classification Benchmark with Spurious Correlation ( http://arxiv.org/abs/2404.19644v1 )

ライセンス: Link先を確認
Min Zhang, Haoxuan Li, Fei Wu, Kun Kuang, (参考訳) 数ショット分類(FSC)におけるアウト・オブ・ディストリビューション(OOD)問題は、テスト分布からサンプリングされた新しいクラスが、トレーニング分布から引き出されたベースクラスと異なる場合に起こり、現実世界のアプリケーションにデプロイされたディープラーニングモデルの性能を著しく低下させる。 最近の研究は、主にFSCにおけるOOD問題について示唆している。 (a)クロスドメイン小ショット分類(CD-FSC)および (b)スプリアス相関小ショット分類(SC-FSC)。 特に、CD-FSCは、分類者が、見知らぬトレーニング分布から引き出されたベースクラスから知識の伝達を学ぶが、見つからないテスト分布からサンプリングされた新しいクラスを認識するときに発生する。 これとは対照的に、SC-FSCは分類器がベースクラスのラベル(または概念)と相関する非因果的特徴(または文脈)に依存している場合に発生するが、そのような関係はモデル展開中にもはや保持されない。 CD-FSCは広く研究されているが、評価ベンチマークの欠如により、SC-FSCはまだ検討されていない。 この目的のために,現実世界のシナリオから収集したスプリアス相関シフトのベンチマークであるMetaConcept Context(MetaCoCo)を紹介する。 さらに,提案したMetaCoCoのスプリアス相関シフトの程度を定量化するために,CLIPを事前学習した視覚言語モデルとして用いたメトリクスを提案する。 FSC,クロスドメインシフト,自己教師型学習における最先端の手法を評価するために,提案したベンチマークの大規模な実験を行った。 実験結果から,既存手法の性能はスプリアス相関シフトの有無で著しく低下することがわかった。 我々はベンチマークのすべてのコードをオープンソース化し、提案されたMetaCoCoが将来のFSCの急激な相関シフト問題の研究を促進することを期待する。 コードはhttps://github.com/remiMZ/MetaCoCo-ICLR24.comで公開されている。

Out-of-distribution (OOD) problems in few-shot classification (FSC) occur when novel classes sampled from testing distributions differ from base classes drawn from training distributions, which considerably degrades the performance of deep learning models deployed in real-world applications. Recent studies suggest that the OOD problems in FSC mainly including: (a) cross-domain few-shot classification (CD-FSC) and (b) spurious-correlation few-shot classification (SC-FSC). Specifically, CD-FSC occurs when a classifier learns transferring knowledge from base classes drawn from seen training distributions but recognizes novel classes sampled from unseen testing distributions. In contrast, SC-FSC arises when a classifier relies on non-causal features (or contexts) that happen to be correlated with the labels (or concepts) in base classes but such relationships no longer hold during the model deployment. Despite CD-FSC has been extensively studied, SC-FSC remains understudied due to lack of the corresponding evaluation benchmarks. To this end, we present Meta Concept Context (MetaCoCo), a benchmark with spurious-correlation shifts collected from real-world scenarios. Moreover, to quantify the extent of spurious-correlation shifts of the presented MetaCoCo, we further propose a metric by using CLIP as a pre-trained vision-language model. Extensive experiments on the proposed benchmark are performed to evaluate the state-of-the-art methods in FSC, cross-domain shifts, and self-supervised learning. The experimental results show that the performance of the existing methods degrades significantly in the presence of spurious-correlation shifts. We open-source all codes of our benchmark and hope that the proposed MetaCoCo can facilitate future research on spurious-correlation shifts problems in FSC. The code is available at: https://github.com/remiMZ/MetaCoCo-ICLR24.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# 2つの重力ネコ状態における熱的効果下での量子相関の階層の探索

Exploring the hierarchy of quantum correlations under thermal effects in two gravitational cat states ( http://arxiv.org/abs/2404.19648v1 )

ライセンス: Link先を確認
Elhabib Jaloum, Mohamed Amazioug, (参考訳) 本稿では、2つの重力猫状態(2つの量子ビットでモデル化)間の量子相関の階層構造について検討する。 2つの重力猫状態間の絡み合いの定量化にコンカレンスを用いる。 量子ステアリングは、そのステアビリティを測定するために使用される。 幾何学的量子不一致は、絡み合いを超えて量子相関を定量化する。 熱影響下では, ステアビリティが失われても, コンカレンスが持続することを示す。 また、温度が2つの重力猫状態間の量子相関の度合いに影響を与えることも示している。 また、基底状態と第1励起レベルとの間のエネルギー差が顕著になると、状態は分離可能である。

In this article, we investigate the hierarchy of quantum correlations between two gravitational cats states (modeled by two qubits). We use concurrence to quantify the entanglement between the two gravitational cat states. Quantum steering is employed to measure the steerabilities. We consider geometric quantum discord to quantify quantum correlations beyond entanglement. We show that the concurrence persists even when steerability is lost under thermal effects. We also show that the temperature influences the degree of quantum correlations between the two gravitational cat states. Besides, when the energy difference between the ground state and the first excited level becomes significant, the states become separable.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# 効率を向上した確率的ロバストな等角予測

Provably Robust Conformal Prediction with Improved Efficiency ( http://arxiv.org/abs/2404.19651v1 )

ライセンス: Link先を確認
Ge Yan, Yaniv Romano, Tsui-Wei Weng, (参考訳) コンフォーマル予測(conformal prediction)は、任意の予測モデルを用いて、トレーニングとテストデータが、すなわち、テストデータであるという仮定の下で、保証されたカバレッジを持つ不確実性セットを生成する強力なツールである。 近年,i.d.仮定に違反するため,逆例が不適切なカバレッジ率で予測セットを構築するための共形手法を操作できることが示されている。 この問題に対処するために、最近の研究であるRandomized Smoothed Conformal Prediction (RSCP)が最初に提案された。 しかし、RSCPには2つの大きな制限がある。 (i)その堅牢性保証は、実際に使用する場合に欠陥があり、 (ii)大きな不確実性集合を生成する傾向がある。 これらの制約に対処するため、我々はまずRSCP+と呼ばれる新しいフレームワークを提案する。 次に,PTT(Post-Training Transformation)とRCT(Robost Conformal Training)という2つの新しい手法を提案する。 CIFAR10、CIFAR100、ImageNetの実験結果から、ベースライン法は完全なラベルセットを含む自明な予測しか得られず、我々の手法は、それぞれ$4.36\times$、$5.46\times$、$16.9\times$の効率を向上し、実用的な堅牢性を保証することを示唆している。 私たちのコードはhttps://github.com/Trustworthy-ML-Lab/Provably-Robust-Conformal-Predictionで公開しています。

Conformal prediction is a powerful tool to generate uncertainty sets with guaranteed coverage using any predictive model, under the assumption that the training and test data are i.i.d.. Recently, it has been shown that adversarial examples are able to manipulate conformal methods to construct prediction sets with invalid coverage rates, as the i.i.d. assumption is violated. To address this issue, a recent work, Randomized Smoothed Conformal Prediction (RSCP), was first proposed to certify the robustness of conformal prediction methods to adversarial noise. However, RSCP has two major limitations: (i) its robustness guarantee is flawed when used in practice and (ii) it tends to produce large uncertainty sets. To address these limitations, we first propose a novel framework called RSCP+ to provide provable robustness guarantee in evaluation, which fixes the issues in the original RSCP method. Next, we propose two novel methods, Post-Training Transformation (PTT) and Robust Conformal Training (RCT), to effectively reduce prediction set size with little computation overhead. Experimental results in CIFAR10, CIFAR100, and ImageNet suggest the baseline method only yields trivial predictions including full label set, while our methods could boost the efficiency by up to $4.36\times$, $5.46\times$, and $16.9\times$ respectively and provide practical robustness guarantee. Our codes are available at https://github.com/Trustworthy-ML-Lab/Provably-Robust-Conformal-Prediction.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# VimTS: クロスドメインの一般化を促進する統一ビデオと画像テキストのスポッター

VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization ( http://arxiv.org/abs/2404.19652v1 )

ライセンス: Link先を確認
Yuliang Liu, Mingxin Huang, Hao Yan, Linger Deng, Weijia Wu, Hao Lu, Chunhua Shen, Lianwen Jin, Xiang Bai, (参考訳) テキストスポッティングは、画像やビデオシーケンスからテキスト情報を抽出するタスクであり、画像から画像への変換や画像から画像への一般化といった、ドメイン間の適応の課題に直面している。 本稿では,タスク間の相乗効果を向上し,モデルの一般化能力を向上する,VimTSと呼ばれる新しい手法を提案する。 典型的には、プロンプトクエリ生成モジュールとタスク対応アダプタを提案し、元の単一タスクモデルを、最小限の追加パラメータを持つ画像シナリオとビデオシナリオの両方に適したマルチタスクモデルに効果的に変換する。 Prompt Queries Generation Moduleは、異なるタスク間の明示的な相互作用を促進する一方、Tasks-aware Adapterは、各タスクに適した機能をモデルが動的に学習するのに役立つ。 さらに,より低コストで時間情報を学習できるように,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。 特に,TT-to-IC15,CTW1500-to-TT,TT-to-CTW1500といった6つのクロスドメインベンチマークにおいて,最先端の手法を平均2.6%上回る結果を得た。 ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応では,画像レベルのデータのみを用いて,平均5.5%の精度で従来のエンドツーエンドビデオスポッティング手法を上回ります。 さらに、既存のLarge Multimodal Modelsは、パラメータやデータを大幅に少なくするVimTSモデルとは対照的に、クロスドメインシーンテキストスポッティングの生成に制限があることを示した。 コードとデータセットはhttps://VimTextSpotter.github.ioで公開される。

Text spotting, a task involving the extraction of textual information from image or video sequences, faces challenges in cross-domain adaption, such as image-to-image and image-to-video generalization. In this paper, we introduce a new method, termed VimTS, which enhances the generalization ability of the model by achieving better synergy among different tasks. Typically, we propose a Prompt Queries Generation Module and a Tasks-aware Adapter to effectively convert the original single-task model into a multi-task model suitable for both image and video scenarios with minimal additional parameters. The Prompt Queries Generation Module facilitates explicit interaction between different tasks, while the Tasks-aware Adapter helps the model dynamically learn suitable features for each task. Additionally, to further enable the model to learn temporal information at a lower cost, we propose a synthetic video text dataset (VTD-368k) by leveraging the Content Deformation Fields (CoDeF) algorithm. Notably, our method outperforms the state-of-the-art method by an average of 2.6% in six cross-domain benchmarks such as TT-to-IC15, CTW1500-to-TT, and TT-to-CTW1500. For video-level cross-domain adaption, our method even surpasses the previous end-to-end video spotting method in ICDAR2015 video and DSText v2 by an average of 5.5% on the MOTA metric, using only image-level data. We further demonstrate that existing Large Multimodal Models exhibit limitations in generating cross-domain scene text spotting, in contrast to our VimTS model which requires significantly fewer parameters and data. The code and datasets will be made available at the https://VimTextSpotter.github.io.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# 教師なしオブジェクト発見のためのマスク付きマルチクエリスロットアテンション

Masked Multi-Query Slot Attention for Unsupervised Object Discovery ( http://arxiv.org/abs/2404.19654v1 )

ライセンス: Link先を確認
Rishav Pramanik, José-Fabian Villa-Vásquez, Marco Pedersoli, (参考訳) 教師なしオブジェクト発見は、セマンティックセグメンテーションやオブジェクト検出といったエンティティにイメージを分解する必要がある認識問題に対処する上で、不可欠な研究ラインになりつつある。 近年, 自己超越性を利用したオブジェクト中心の手法が人気を集めている。 しかし、これらの手法は、現代の自己監督的アプローチで既に使われている効果的な手法を活用できない。 本研究では,DINO ViTの特徴をスロットと呼ばれる一連のクエリ表現によって再構成するオブジェクト中心のアプローチについて考察する。 そこで本研究では,背景領域を選択的に無視する入力特徴のマスキング手法を提案する。 さらに、スロットアテンションをマルチクエリアプローチに拡張し、モデルの複数のスロット集合を学習し、より安定したマスクを生成する。 トレーニング中、これらの複数のスロットセットは独立して学習され、テスト時には、これらのセットはハンガリーのマッチングを通じてマージされ、最終スロットを取得する。 実験結果とPASCAL-VOC 2012データセットの短縮は、各コンポーネントの重要性を示し、それらの組み合わせがオブジェクトのローカライゼーションを継続的に改善することを示す。 私たちのソースコードは、https://github.com/rishavpramanik/maskedmultiqueryslot.comで公開されています。

Unsupervised object discovery is becoming an essential line of research for tackling recognition problems that require decomposing an image into entities, such as semantic segmentation and object detection. Recently, object-centric methods that leverage self-supervision have gained popularity, due to their simplicity and adaptability to different settings and conditions. However, those methods do not exploit effective techniques already employed in modern self-supervised approaches. In this work, we consider an object-centric approach in which DINO ViT features are reconstructed via a set of queried representations called slots. Based on that, we propose a masking scheme on input features that selectively disregards the background regions, inducing our model to focus more on salient objects during the reconstruction phase. Moreover, we extend the slot attention to a multi-query approach, allowing the model to learn multiple sets of slots, producing more stable masks. During training, these multiple sets of slots are learned independently while, at test time, these sets are merged through Hungarian matching to obtain the final slots. Our experimental results and ablations on the PASCAL-VOC 2012 dataset show the importance of each component and highlight how their combination consistently improves object localization. Our source code is available at: https://github.com/rishavpramanik/maskedmultiqueryslot
翻訳日:2024-05-01 13:46:04 公開日:2024-04-30
# シナリオと能力駆動型データセット開発と評価:マップレス自動運転の文脈におけるアプローチ

Towards Scenario- and Capability-Driven Dataset Development and Evaluation: An Approach in the Context of Mapless Automated Driving ( http://arxiv.org/abs/2404.19656v1 )

ライセンス: Link先を確認
Felix Grün, Marcus Nolte, Markus Maurer, (参考訳) ディープラーニングモデルの能力を定義する上でのデータセットの基本的な役割は、その急速な普及につながった。 同時に、自動走行における環境認識のためのデータセット開発に焦点をあてた研究は、ほとんど行われていないため、公開データセットの適用性が低下し、効果的な環境認識システムの開発を妨げている。 センサベースでマップレスな自動運転は、この制限が明確であるコンテキストの1つである。 リアルタイムセンサデータを活用する一方で、事前定義されたHDマップの代わりに、予期せぬ環境変化を効果的にナビゲートすることで、適応性と安全性の向上を約束する。 これらの課題に対処するため,我々は,データセット開発に対するシナリオと能力に基づくアプローチを提案する。 ISO/TR 4804により拡張されたISO 21448(SOTIF)の原則に基づいて,本手法はデータセット要求の構造的導出を促進する。 これは意味のある新しいデータセットの開発に役立つだけでなく、既存のデータセットの効果的な比較を可能にする。 この方法論を既存のレーン検出データセットの幅広い範囲に適用することにより、特に現実の応用性、重要な特徴のラベル付けの欠如、複雑な運転操作のための包括的な情報がないという点において、現在のデータセットにおける重要な制限を識別する。

The foundational role of datasets in defining the capabilities of deep learning models has led to their rapid proliferation. At the same time, published research focusing on the process of dataset development for environment perception in automated driving has been scarce, thereby reducing the applicability of openly available datasets and impeding the development of effective environment perception systems. Sensor-based, mapless automated driving is one of the contexts where this limitation is evident. While leveraging real-time sensor data, instead of pre-defined HD maps promises enhanced adaptability and safety by effectively navigating unexpected environmental changes, it also increases the demands on the scope and complexity of the information provided by the perception system. To address these challenges, we propose a scenario- and capability-based approach to dataset development. Grounded in the principles of ISO 21448 (safety of the intended functionality, SOTIF), extended by ISO/TR 4804, our approach facilitates the structured derivation of dataset requirements. This not only aids in the development of meaningful new datasets but also enables the effective comparison of existing ones. Applying this methodology to a broad range of existing lane detection datasets, we identify significant limitations in current datasets, particularly in terms of real-world applicability, a lack of labeling of critical features, and an absence of comprehensive information for complex driving maneuvers.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# リーマン最適化の正規化:プロセストモグラフィーと量子機械学習への応用

Regularization of Riemannian optimization: Application to process tomography and quantum machine learning ( http://arxiv.org/abs/2404.19659v1 )

ライセンス: Link先を確認
Felix Soest, Konstantin Beyer, Walter T. Strunz, (参考訳) リーマン多様体上の勾配降下アルゴリズムは近年、量子チャネルの最適化に使われている。 本研究は,これらの勾配降下法のコスト関数に付加される各種正規化項の影響について検討する。 ラッソ正則化により、量子チャネルの大きな階数に対してペナルティを適用し、できるだけ少数のクラウス作用素で表現できる解を好む。 本手法を量子プロセストモグラフィーおよび量子機械学習問題に適用する。 適切な正規化モデルは、プロセストモグラフィーの場合、最適化のより高速な収束とより良い忠実度を示す。 量子分類のシナリオに適用すると、正規化項は、分類の精度を低下させることなく、量子チャネルの分類を単純化し、与えられた入力データに必要な最小チャネルランクを明らかにすることができる。

Gradient descent algorithms on Riemannian manifolds have been used recently for the optimization of quantum channels. In this contribution, we investigate the influence of various regularization terms added to the cost function of these gradient descent approaches. Motivated by Lasso regularization, we apply penalties for large ranks of the quantum channel, favoring solutions that can be represented by as few Kraus operators as possible. We apply the method to quantum process tomography and a quantum machine learning problem. Suitably regularized models show faster convergence of the optimization as well as better fidelities in the case of process tomography. Applied to quantum classification scenarios, the regularization terms can simplify the classifying quantum channel without degrading the accuracy of the classification, thereby revealing the minimum channel rank needed for the given input data.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# ポイントプロセスのためのPCA

PCA for Point Processes ( http://arxiv.org/abs/2404.19661v1 )

ライセンス: Link先を確認
Franck Picard, Vincent Rivoirard, Angelina Roche, Victor Panaretos, (参考訳) 本稿では, 個体群レベルでの点パターンの変動性の研究を可能にする, 複製点過程の解析のための新しい統計フレームワークを提案する。 点過程の現実化をランダムな測度として扱うことにより、機能解析の観点を採用し、点過程に対する機能的主成分分析(fPCA)の形式を提案する。 本手法の独創性は, ランダム測度の累積質量関数に基づいて解析を行い, 直接的かつ解釈可能な解析を行うことである。 主要な理論的貢献には、ランダム測度に対するカルフネン-Lo\`{e}ve拡大と共分散測度に対するマーサー定理の確立がある。 我々は強い意味で収束を確立し、観測点パターンの力学を規定する潜在過程として見ることのできる主測度の概念を導入する。 パラメトリックレートが達成される固有要素の簡易な実装推定戦略を提案する。 我々は,Poisson と Hawkes のプロセスに対するアプローチのソリューションを完全に特徴付け,地震学,単一細胞生物学,ニューロサイエンスにおけるシミュレーションおよび多様な応用を通じて方法論を検証し,その汎用性と有効性を示す。 我々の方法は pppca R-package に実装されている。

We introduce a novel statistical framework for the analysis of replicated point processes that allows for the study of point pattern variability at a population level. By treating point process realizations as random measures, we adopt a functional analysis perspective and propose a form of functional Principal Component Analysis (fPCA) for point processes. The originality of our method is to base our analysis on the cumulative mass functions of the random measures which gives us a direct and interpretable analysis. Key theoretical contributions include establishing a Karhunen-Lo\`{e}ve expansion for the random measures and a Mercer Theorem for covariance measures. We establish convergence in a strong sense, and introduce the concept of principal measures, which can be seen as latent processes governing the dynamics of the observed point patterns. We propose an easy-to-implement estimation strategy of eigenelements for which parametric rates are achieved. We fully characterize the solutions of our approach to Poisson and Hawkes processes and validate our methodology via simulations and diverse applications in seismology, single-cell biology and neurosiences, demonstrating its versatility and effectiveness. Our method is implemented in the pppca R-package.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# インターネットビデオによる汎用型ロボットの学習に向けて : アンケート調査より

Towards Generalist Robot Learning from Internet Video: A Survey ( http://arxiv.org/abs/2404.19664v1 )

ライセンス: Link先を確認
Robert McCarthy, Daniel C. H. Tan, Dominik Schmidt, Fernando Acero, Nathan Herr, Yilun Du, Thomas G. Thuruthel, Zhibin Li, (参考訳) 本稿では,強化学習(RL)とロボット工学の文脈におけるビデオ(LfV)からの学習方法の概要について述べる。 我々は、大規模なインターネットビデオデータセットにスケール可能な方法に焦点を当て、その過程で、世界のダイナミクスと物理的な人間の振る舞いに関する基礎知識を抽出する。 このような手法は汎用ロボットの開発に大いに貢献する。 LfV-for-roboticsセッティングに関する基本概念の概要を述べる。 この中には、LfVメソッドがもたらすエキサイティングなメリット(例えば、利用可能なロボットデータ以外の一般化の改善)や、重要なLfV課題(例えば、ビデオやLfVの分散シフトにおける欠落に関する情報に関連する課題)に関する解説が含まれている。 我々の文献レビューは、巨大で異質なビデオデータセットから知識を抽出できるビデオ基盤モデル技術の分析から始まる。 次に,ロボット学習にビデオデータを活用する手法について検討する。 本稿では,ビデオデータの利用によってRLの知識モダリティが向上する作業の分類を行う。 また、ビデオ中のアクションラベルの欠落の問題に対処するアクション表現のレビューなど、LfV課題を緩和するためのテクニックも強調する。 最後に、LfVのデータセットとベンチマークを調査し、LfVの課題と機会について議論することで、調査を終了する。 ここでは、利用可能な全範囲のデータを活用し、LfVの重要なメリットを目標とするスケーラブルなアプローチを提唱する。 全体としては、この調査がLfVの新興分野の総合的な参照として役立ち、この分野のさらなる研究を触媒し、最終的には汎用ロボットの獲得に向けた進歩を促進することを願っている。

This survey presents an overview of methods for learning from video (LfV) in the context of reinforcement learning (RL) and robotics. We focus on methods capable of scaling to large internet video datasets and, in the process, extracting foundational knowledge about the world's dynamics and physical human behaviour. Such methods hold great promise for developing general-purpose robots. We open with an overview of fundamental concepts relevant to the LfV-for-robotics setting. This includes a discussion of the exciting benefits LfV methods can offer (e.g., improved generalization beyond the available robot data) and commentary on key LfV challenges (e.g., challenges related to missing information in video and LfV distribution shifts). Our literature review begins with an analysis of video foundation model techniques that can extract knowledge from large, heterogeneous video datasets. Next, we review methods that specifically leverage video data for robot learning. Here, we categorise work according to which RL knowledge modality benefits from the use of video data. We additionally highlight techniques for mitigating LfV challenges, including reviewing action representations that address the issue of missing action labels in video. Finally, we examine LfV datasets and benchmarks, before concluding the survey by discussing challenges and opportunities in LfV. Here, we advocate for scalable approaches that can leverage the full range of available data and that target the key benefits of LfV. Overall, we hope this survey will serve as a comprehensive reference for the emerging field of LfV, catalysing further research in the area, and ultimately facilitating progress towards obtaining general-purpose robots.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# ATOMMIC: 磁気共鳴画像の取得から解析までの人工知能応用を容易にするマルチタスク医療画像整合性向上ツールボックス

ATOMMIC: An Advanced Toolbox for Multitask Medical Imaging Consistency to facilitate Artificial Intelligence applications from acquisition to analysis in Magnetic Resonance Imaging ( http://arxiv.org/abs/2404.19665v1 )

ライセンス: Link先を確認
Dimitrios Karkalousos, Ivana Išgum, Henk A. Marquering, Matthan W. A. Caan, (参考訳) AIは、取得と処理チェーンに沿ってMRIに革命をもたらしている。 画像再構成、定量的パラメータマップ推定、画像セグメンテーションなど、さまざまなタスクにAIを適用するための高度なAIフレームワークが開発されている。 既存のフレームワークは、独立してタスクを実行するように設計されたり、特定のモデルやデータセットに集中して、一般化を制限したりすることが多い。 高速化されたMRI再構成と解析のためにAIアプリケーションを合理化するためのオープンソースのツールボックスであるATOMMICを紹介する。 ATOMMICは、DLネットワークを使用して複数のタスクを実装し、MRI領域における一般化をターゲットとして、MultiTask Learning (MTL)が関連するタスクを統合化できるようにする。 我々はまず、総合的な文献検索と12,479のGitHubリポジトリの解析を通じて、MRI用のAIフレームワークの現状をレビューした。 MTLを用いた加速MRI再構成、画像分割、定量的パラメータマップ推定、共同加速MRI再構成および画像分割におけるATOMMICの明確な応用を示すために、利用可能な8つのデータセット上の25個のDLモデルをベンチマークした。 以上の結果から, ATOMMICは, 複合値と実値が調和した唯一のMTLフレームワークであることがわかった。 単一タスクの評価は、MRIの物理的特性を活用してデータの一貫性を強制する物理モデルが、高度に高速化された取得の再構築において、他のモデルより優れていることを示している。 再現性の高い物理モデルでは,定量的パラメータマップを正確に推定することができる。 MTLを用いた高パフォーマンス再構成モデルとロバストセグメンテーションネットワークを組み合わせると、両方のタスクで性能が向上する。 ATOMMICはワークフローの標準化、データの相互運用性の向上、MTLのようなユニークな機能の統合、DLモデルを効果的にベンチマークすることで、MRIの再構築と解析を容易にする。

AI is revolutionizing MRI along the acquisition and processing chain. Advanced AI frameworks have been developed to apply AI in various successive tasks, such as image reconstruction, quantitative parameter map estimation, and image segmentation. Existing frameworks are often designed to perform tasks independently or are focused on specific models or datasets, limiting generalization. We introduce ATOMMIC, an open-source toolbox that streamlines AI applications for accelerated MRI reconstruction and analysis. ATOMMIC implements several tasks using DL networks and enables MultiTask Learning (MTL) to perform related tasks integrated, targeting generalization in the MRI domain. We first review the current state of AI frameworks for MRI through a comprehensive literature search and by parsing 12,479 GitHub repositories. We benchmark 25 DL models on eight publicly available datasets to present distinct applications of ATOMMIC on accelerated MRI reconstruction, image segmentation, quantitative parameter map estimation, and joint accelerated MRI reconstruction and image segmentation utilizing MTL. Our findings demonstrate that ATOMMIC is the only MTL framework with harmonized complex-valued and real-valued data support. Evaluations on single tasks show that physics-based models, which enforce data consistency by leveraging the physical properties of MRI, outperform other models in reconstructing highly accelerated acquisitions. Physics-based models that produce high reconstruction quality can accurately estimate quantitative parameter maps. When high-performing reconstruction models are combined with robust segmentation networks utilizing MTL, performance is improved in both tasks. ATOMMIC facilitates MRI reconstruction and analysis by standardizing workflows, enhancing data interoperability, integrating unique features like MTL, and effectively benchmarking DL models.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# MOSを超えて:知覚的類似性に基づく主観的画質スコア前処理法

Beyond MOS: Subjective Image Quality Score Preprocessing Method Based on Perceptual Similarity ( http://arxiv.org/abs/2404.19666v1 )

ライセンス: Link先を確認
Lei Wang, Desen Yuan, (参考訳) 画像品質評価は、被験者が主観的な実験で提供した生の意見スコアに依存することが多い。 この問題に対処するため、ITU-R BT.500、ITU-T P.910、ITU-T P.913などの後処理手順が標準化され、当初の評価スコアが標準化された。 これらの手法では、アノテータに基づく統計的先行値を用いるが、画像自体に関する広範な情報を考慮していないため、アノテーションの少ないシナリオではパフォーマンスが制限される。 一般的に、画像の品質データセットは、通常、類似のシーンや歪みを含んでおり、被験者が画像を比較してスコアを採点するのは難しい。 そこで本稿では,主観的画像品質スコア前処理手法(PSP)を提案する。 具体的には,従来の画像と知覚的類似性に基づいて,主観的評価を条件付き確率モデルとしてモデル化する。 基準画像は、画像の知覚深度特徴の正規化ベクトルドット積に基づく近接探索により得られる隣接辞書によって記憶される。 そして、前処理されたスコアを、類似性正規化EMA(英語版)と呼ばれる潜在意識基準スコアの指数移動平均(EMA)によって更新する。 複数のデータセット (LIVE, TID2013, CID2013) に対する実験により, 本手法は主観的スコアのバイアスを効果的に除去できることを示した。 さらに、Experimentsは、Preprocesedデータセットが下流IQAタスクのパフォーマンスを非常に良く改善できることを証明している。

Image quality assessment often relies on raw opinion scores provided by subjects in subjective experiments, which can be noisy and unreliable. To address this issue, postprocessing procedures such as ITU-R BT.500, ITU-T P.910, and ITU-T P.913 have been standardized to clean up the original opinion scores. These methods use annotator-based statistical priors, but they do not take into account extensive information about the image itself, which limits their performance in less annotated scenarios. Generally speaking, image quality datasets usually contain similar scenes or distortions, and it is inevitable for subjects to compare images to score a reasonable score when scoring. Therefore, In this paper, we proposed Subjective Image Quality Score Preprocessing Method perceptual similarity Subjective Preprocessing (PSP), which exploit the perceptual similarity between images to alleviate subjective bias in less annotated scenarios. Specifically, we model subjective scoring as a conditional probability model based on perceptual similarity with previously scored images, called subconscious reference scoring. The reference images are stored by a neighbor dictionary, which is obtained by a normalized vector dot-product based nearest neighbor search of the images' perceptual depth features. Then the preprocessed score is updated by the exponential moving average (EMA) of the subconscious reference scoring, called similarity regularized EMA. Our experiments on multiple datasets (LIVE, TID2013, CID2013) show that this method can effectively remove the bias of the subjective scores. Additionally, Experiments prove that the Preprocesed dataset can improve the performance of downstream IQA tasks very well.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# 量子隠れ進化を伴うニューラル制御微分方程式

Neural Controlled Differential Equations with Quantum Hidden Evolutions ( http://arxiv.org/abs/2404.19673v1 )

ライセンス: Link先を確認
Lingyi Yang, Zhen Shao, (参考訳) 量子力学にインスパイアされた神経制御微分方程式のクラスを導入する。 ニューラル量子制御微分方程式(NQDE)は、シュル「{o}ディンガー方程式」の類似により力学をモデル化する。 具体的には、隠れ状態は波動関数を表し、その崩壊は分類確率の解釈につながる。 我々は,おもちゃのスパイラル分類問題に対して,NQDEの4つの変種を実装・比較した。

We introduce a class of neural controlled differential equation inspired by quantum mechanics. Neural quantum controlled differential equations (NQDEs) model the dynamics by analogue of the Schr\"{o}dinger equation. Specifically, the hidden state represents the wave function, and its collapse leads to an interpretation of the classification probability. We implement and compare the results of four variants of NQDEs on a toy spiral classification problem.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# ペガサススパイウェアの包括的分析とデジタルプライバシとセキュリティへの応用

A Comprehensive Analysis of Pegasus Spyware and Its Implications for Digital Privacy and Security ( http://arxiv.org/abs/2404.19677v1 )

ライセンス: Link先を確認
Karwan Kareem, (参考訳) 本稿では,ペガサスのスパイウェアとそのデジタルプライバシとセキュリティへの影響を包括的に分析する。 イスラエルのサイバーインテリジェンス会社NSO GroupのPegasus(ペガサス)は、スマートフォンに侵入し、ユーザーの知らないままデータを抽出する強力な監視ツールとして認知されている。 この研究は、このスパイウェアの技術的な側面、その展開方法、使用をめぐる論争を強調している。 この研究はまた、高度なスパイウェアが普及した結果、デジタルプライバシとセキュリティに関する懸念が高まっていることも強調している。 この研究の目的は、法的、倫理的、政策的な問題を掘り下げることによって、ペガサスや同様のスパイウェアツールがもたらす課題の全体的理解を提供することである。 本論文は,包括的調査を通じて,脅威を軽減し,ユーザを侵略的な監視技術から保護する潜在的な解決策を提案する。

This paper comprehensively analyzes the Pegasus spyware and its implications for digital privacy and security. The Israeli cyber intelligence company NSO Group's Pegasus has gained recognition as a potent surveillance tool capable of hacking into smartphones and extracting data without the user's knowledge [49], [50]. The research emphasizes the technical aspects of this spyware, its deployment methods, and the controversies surrounding its use. The research also emphasizes the growing worries surrounding digital privacy and security as a result of the prevalent use of advanced spyware. By delving into legal, ethical, and policy issues, the objective of this study is to deliver a holistic understanding of the challenges posed by Pegasus and similar spyware tools. Through a comprehensive examination of the subject, the paper presents potential solutions to mitigate the threats and protect users from invasive surveillance techniques.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# 電子量子ビットと核マグノンのコヒーレント相互作用のチューニング

Tuning the coherent interaction of an electron qubit and a nuclear magnon ( http://arxiv.org/abs/2404.19679v1 )

ライセンス: Link先を確認
Noah Shofer, Leon Zaporski, Martin Hayhurst Appel, Santanu Manna, Saimon Covre da Silva, Alexander Ghorbal, Urs Haeusler, Armando Rastelli, Claire Le Gall, Michał Gawełczyk, Mete Atatüre, Dorian A. Gangloff, (参考訳) 近位スピンのアンサンブルとコヒーレントに相互作用する中心スピン量子ビットは、絡み合った集合状態やマルチキュービットレジスタを工学するために用いられる。 この多体プラットフォームをフル活用するには、中心スピンとスピンレジスタ間の相互作用を調整する必要がある。 GaAs量子ドットは、電子量子ビットが$\sim 10^{4}$核スピンの複数のアンサンブルと相互作用する中心スピン系のモデル実現を提供する。 本研究では、GaAs量子ドットにおける電子量子ビットと核多体系の相互作用のチューニングを実演する。 GaAs系の均一性により、高精度で異方的に選択的な核側バンド分光が可能となり、単一核電子ナイト場が明らかになる。 原子核の時間分解分光法とともに、これは先天制御のための電子-原子核相互作用を完全に特徴づける。 アルゴリズムフィードバックシーケンスは、電子的g因子異方性を介してその場で電子核交換相互作用を調整する核偏極を正確に選択する。 これにより、集合核励起(マグノン)の活性化速度と電子量子ビットのコヒーレンス時間を直接調整することができる。 本手法は,多体系におけるコヒーレント相互作用のプログラム可能なチューニングを可能にする。

A central spin qubit interacting coherently with an ensemble of proximal spins can be used to engineer entangled collective states or a multi-qubit register. Making full use of this many-body platform requires tuning the interaction between the central spin and its spin register. GaAs quantum dots offer a model realization of the central spin system where an electron qubit interacts with multiple ensembles of $\sim 10^{4}$ nuclear spins. In this work, we demonstrate tuning of the interaction between the electron qubit and the nuclear many-body system in a GaAs quantum dot. The homogeneity of the GaAs system allows us to perform high-precision and isotopically selective nuclear sideband spectroscopy, which reveals the single-nucleus electronic Knight field. Together with time-resolved spectroscopy of the nuclear field, this fully characterizes the electron-nuclear interaction for a priori control. An algorithmic feedback sequence selects the nuclear polarization precisely, which adjusts the electron-nuclear exchange interaction in situ via the electronic g-factor anisotropy. This allows us to tune directly the activation rate of a collective nuclear excitation (magnon) and the coherence time of the electron qubit. Our method is applicable to similar central-spin systems and enables the programmable tuning of coherent interactions in the many-body regime.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# スピン量子ビットのための多体量子レジスタ

Many-body quantum register for a spin qubit ( http://arxiv.org/abs/2404.19680v1 )

ライセンス: Link先を確認
Martin Hayhurst Appel, Alexander Ghorbal, Noah Shofer, Leon Zaporski, Santanu Manna, Saimon Filipe Covre da Silva, Urs Haeusler, Claire Le Gall, Armando Rastelli, Dorian A. Gangloff, Mete Atatüre, (参考訳) 量子ネットワークは、コヒーレントな光インタフェースと複数の定常量子ビットを持つ量子ノードを必要とする。 光学特性の観点からは、半導体量子ドットは非常に魅力的であるが、量子ノードとしての採用は補助量子ビットの欠如によって妨げられている。 ここでは、高密度で常に現われる核スピンアンサンブルを利用した半導体量子ドットにおける機能量子レジスタを実証する。 13,000のホスト核スピンを1つの多体ダーク状態に準備し、レジスタ論理状態として$|0\rangle$として動作させる。 論理状態 $|1\rangle$ は単一の核マグノン励起として定義され、電子スピン量子ビットと核磁気レジスタの間の制御された量子状態移動を可能にする。 130nsのSWAPゲートを使用して、68.6(4)%の生の全体忠実度と130(16)$\mu$sのストレージを持つ書き込みストア-検索-読み出しプロトコルを実装した。 我々の研究は、量子ドットが決定論的レジスタを持つマルチ量子ビット量子ノードに変換される場合、量子デバイスに数体物理学がステップシフト機能を加えることができるかを確立する。

Quantum networks require quantum nodes with coherent optical interfaces and multiple stationary qubits. In terms of optical properties, semiconductor quantum dots are highly compelling, but their adoption as quantum nodes has been impaired by the lack of auxiliary qubits. Here, we demonstrate a functional quantum register in a semiconductor quantum dot leveraging the dense, always-present nuclear spin ensemble. We prepare 13,000 host nuclear spins into a single many-body dark state to operate as the register logic state $|0\rangle$. The logic state $|1\rangle$ is defined as a single nuclear magnon excitation, enabling controlled quantum-state transfer between the electron spin qubit and the nuclear magnonic register. Using 130-ns SWAP gates, we implement a full write-store-retrieve-readout protocol with 68.6(4)% raw overall fidelity and a storage time of 130(16) $\mu$s in the absence of dynamical decoupling. Our work establishes how many-body physics can add step-change functionality to quantum devices, in this case transforming quantum dots into multi-qubit quantum nodes with deterministic registers.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# 内部ボソニックジョセフソン接合におけるスピンスクイージングのストローク・アンド・ターンダイナミクスの増強

Enhanced twist-and-turn dynamics of spin squeezing in internal bosonic Josephson junctions ( http://arxiv.org/abs/2404.19685v1 )

ライセンス: Link先を確認
Manuel Odelli, Andreas Ruschhaupt, Vladimir M. Stojanovic, (参考訳) スピンスクイージングのツイスト・アンド・ターンのダイナミクスは、基底ハミルトニアンにおける(非線形)1軸ツイストと(線形)横フィールドの旋回項の相互作用から生じる。 短絡から断熱へのアプローチ(STA)と最近提案された拡張バージョン(eSTA)を用いて、このタイプの力学が、内部のボソニックなジョセフソン接合におけるスピンスクイーズ状態 -- 2つの異なる内部(超微細)状態(シングルボソンモード)におけるコールドボソニックな原子の凝縮体 -- の高速かつ堅牢な準備に利用できることを示した。 この系の初期状態が2つの単一ボソンモードの等重畳における全てのボソンとのコヒーレントスピン状態であり、この系の非線形結合強度が一定であると仮定すると、STAおよびeSTAアプローチを用いて線形結合強度の時間依存性を決定する。 次に,本システムにおける修正ツイスト・アンド・ターンのダイナミクスを,目的のスピン・スクイーズ状態の忠実度だけでなく,コヒーレントなスピン・スクイーズ・アンド・ナンバー・スクイーズパラメータの評価により定量的に特徴づける。 このようにして、eSTAアプローチは、数百の粒子を持つシステムでさえも、その断熱的およびSTAベースのシステムよりも一貫して優れた、特に頑健なスピンスクイーズ状態の実験的実現を可能にすることを示す。

The twist-and-turn dynamics of spin squeezing results from the interplay of the (nonlinear) one-axis-twisting- and the (linear) transverse-field turning term in the underlying Hamiltonian, both with constant (time-independent) respective coupling strengths. Using the methods of shortcuts to adiabaticity (STA) and their recently proposed enhanced version (eSTA), we demonstrate here that dynamics of this type can be utilized for a fast and robust preparation of spin-squeezed states in internal bosonic Josephson junctions -- condensates of cold bosonic atoms in two different internal (hyperfine) states (single-boson modes). Assuming that the initial state of this system is the coherent spin state with all the bosons in the equal superposition of the two single-boson modes and that the nonlinear-coupling strength in this system remains constant, we set out to determine the time-dependence of the linear-coupling strength using the STA and eSTA approaches. We then quantitatively characterize the modified twist-and-turn dynamics in this system by evaluating the coherent spin-squeezing- and number-squeezing parameters, as well as the fidelity of the target spin-squeezed states. In this manner, we show that the eSTA approach allows for a particularly robust experimental realization of strongly spin-squeezed states in this system, consistently outperforming its adiabatic and STA-based counterparts, even for systems with several hundred particles.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# グラフ上の$p$-双調和方程式の連続極限

Continuum limit of $p$-biharmonic equations on graphs ( http://arxiv.org/abs/2404.19689v1 )

ライセンス: Link先を確認
Kehan Shi, Martin Burger, (参考訳) 本稿では、点クラウド処理で生じるグラフ上の$p$-双調和方程式について検討し、ハイパーグラフの観点からグラフ$p$-ラプラシアンの自然な拡張と解釈できる。 この解の漸近挙動は、ランダムな幾何グラフが考慮され、データポイントの数が無限大になるときに研究される。 連続極限は、均一なノイマン境界条件を持つ適切な重み付き$p$-ビハーモニック方程式であることを示す。 この結果は、非局所およびグラフポアソン方程式の解と勾配に対する均一な$L^p$推定に依存する。 解の$L^\infty$推定も副生成物として得られる。

This paper studies the $p$-biharmonic equation on graphs, which arises in point cloud processing and can be interpreted as a natural extension of the graph $p$-Laplacian from the perspective of hypergraph. The asymptotic behavior of the solution is investigated when the random geometric graph is considered and the number of data points goes to infinity. We show that the continuum limit is an appropriately weighted $p$-biharmonic equation with homogeneous Neumann boundary conditions. The result relies on the uniform $L^p$ estimates for solutions and gradients of nonlocal and graph Poisson equations. The $L^\infty$ estimates of solutions are also obtained as a byproduct.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# SwipeGANSpace: 効率的な潜時空間探索によるSwipe-to-Compare画像生成

SwipeGANSpace: Swipe-to-Compare Image Generation via Efficient Latent Space Exploration ( http://arxiv.org/abs/2404.19693v1 )

ライセンス: Link先を確認
Yuto Nakashima, Mingzhe Yang, Yukino Baba, (参考訳) 生成逆数ネットワーク(GAN)を用いた優先画像の生成は、潜在空間の高次元の性質のため困難である。 本研究では,シンプルなユーザ・スワイプインタラクションを用いて,ユーザの好みの画像を生成する手法を提案する。 スワイプ操作のみで潜伏空間を効果的に探索するために、StyleGANの潜伏空間に主成分分析を適用し、意味のある部分空間を生成する。 我々は、マルチアームのバンディットアルゴリズムを用いて、ユーザの好みに焦点をあてて、探索する次元を決定する。 実験により,本手法はベースライン法よりも好ましい画像を生成するのに有効であることが示された。 さらに、画像生成時の好みの画像の変化や、全く異なる画像スタイルの表示が観察され、新たなインスピレーションを与え、その後、ユーザの好みを変更した。 このことは、提案手法が認識し、拡張するユーザ好みの動的な性質を強調している。

Generating preferred images using generative adversarial networks (GANs) is challenging owing to the high-dimensional nature of latent space. In this study, we propose a novel approach that uses simple user-swipe interactions to generate preferred images for users. To effectively explore the latent space with only swipe interactions, we apply principal component analysis to the latent space of the StyleGAN, creating meaningful subspaces. We use a multi-armed bandit algorithm to decide the dimensions to explore, focusing on the preferences of the user. Experiments show that our method is more efficient in generating preferred images than the baseline methods. Furthermore, changes in preferred images during image generation or the display of entirely different image styles were observed to provide new inspirations, subsequently altering user preferences. This highlights the dynamic nature of user preferences, which our proposed approach recognizes and enhances.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# 言語規則化概念学習者による自然監督型3次元視覚接地

Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners ( http://arxiv.org/abs/2404.19696v1 )

ライセンス: Link先を確認
Chun Feng, Joy Hsu, Weiyu Liu, Jiajun Wu, (参考訳) 3Dビジュアルグラウンドティングは、直接的かつ高密度な監視を必要とすることが多い、特にシーン内の各オブジェクトのセマンティックなラベルを必要とする、困難なタスクである。 そこで本研究では,3次元シーンとQAペアのみから学習する自然教師あり環境について検討する。 言語規則化概念学習者(LARC)は,言語からの制約を正規化として用いて,自然環境下でのニューロシンボリック概念学習者の精度を大幅に向上させる。 1つは、言語制約(例えば、単語の関係)が、ニューロシンボリックモデルにおける構造化表現の効果的な正規化として機能し、もう1つは、言語特性からそのような制約を抽出するために、大きな言語モデルに問い合わせることである。 LARCは、自然に監督された3次元視覚的グラウンドにおける先行作業の性能を改善し、ゼロショット合成からデータ効率と転送性に至るまで、幅広い3次元視覚的推論能力を示す。 本手法は,構造化視覚推論フレームワークを言語ベースで正規化するための有望なステップである。

3D visual grounding is a challenging task that often requires direct and dense supervision, notably the semantic label for each object in the scene. In this paper, we instead study the naturally supervised setting that learns from only 3D scene and QA pairs, where prior works underperform. We propose the Language-Regularized Concept Learner (LARC), which uses constraints from language as regularization to significantly improve the accuracy of neuro-symbolic concept learners in the naturally supervised setting. Our approach is based on two core insights: the first is that language constraints (e.g., a word's relation to another) can serve as effective regularization for structured representations in neuro-symbolic models; the second is that we can query large language models to distill such constraints from language properties. We show that LARC improves performance of prior works in naturally supervised 3D visual grounding, and demonstrates a wide range of 3D visual reasoning capabilities-from zero-shot composition, to data efficiency and transferability. Our method represents a promising step towards regularizing structured visual reasoning frameworks with language-based priors, for learning in settings without dense supervision.
翻訳日:2024-05-01 13:36:16 公開日:2024-04-30
# GS-LRM:3次元ガウス平滑化のための大規模再構成モデル

GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting ( http://arxiv.org/abs/2404.19702v1 )

ライセンス: Link先を確認
Kai Zhang, Sai Bi, Hao Tan, Yuanbo Xiangli, Nanxuan Zhao, Kalyan Sunkavalli, Zexiang Xu, (参考訳) GS-LRMは,高画質な3次元ガウスプリミティブを2-4面のスパース画像から1つのA100 GPUで0.23秒で予測できる,スケーラブルな大規模再構成モデルである。 このモデルは非常に単純なトランスフォーマーベースのアーキテクチャを特徴とし、入力されたイメージをパッチ化し、コンカレントなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡し、最終的なガウスパラメータをこれらのトークンから直接デコードしてレンダリングする。 画素ごとのガウスを予測することでオブジェクトを再構成する以前のLEMとは対照的に、GS-LRMはスケールと複雑さに大きなバリエーションを持つシーンを自然に扱う。 我々は,ObjaverseとRealEstate10Kでオブジェクトキャプチャとシーンキャプチャの両方をトレーニングすることで,モデルが動作可能であることを示す。 どちらのシナリオでも、モデルは最先端のベースラインよりも広いマージンで優れています。 また、下流3D生成タスクにおけるモデルの適用例を示す。 プロジェクトのWebページは以下の通りである。

We propose GS-LRM, a scalable large reconstruction model that can predict high-quality 3D Gaussian primitives from 2-4 posed sparse images in 0.23 seconds on single A100 GPU. Our model features a very simple transformer-based architecture; we patchify input posed images, pass the concatenated multi-view image tokens through a sequence of transformer blocks, and decode final per-pixel Gaussian parameters directly from these tokens for differentiable rendering. In contrast to previous LRMs that can only reconstruct objects, by predicting per-pixel Gaussians, GS-LRM naturally handles scenes with large variations in scale and complexity. We show that our model can work on both object and scene captures by training it on Objaverse and RealEstate10K respectively. In both scenarios, the models outperform state-of-the-art baselines by a wide margin. We also demonstrate applications of our model in downstream 3D generation tasks. Our project webpage is available at: https://sai-bi.github.io/project/gs-lrm/ .
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# 検索のタイミング:情報検索を効果的に活用するためのLLM教育

When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively ( http://arxiv.org/abs/2404.19705v1 )

ライセンス: Link先を確認
Tiziano Labruna, Jon Ander Campos, Gorka Azkune, (参考訳) 本稿では,Large Language Models (LLMs) が,与えられた質問に答えるために追加のコンテキストを必要とする場合に,オフ・ザ・シェルフ情報検索 (IR) システムを用いて効果的に学習できることを実証する。 IRシステムの性能を考えると、質問応答の最適戦略は外部情報検索を必ずしも必要とせず、LLM自体のパラメトリックメモリを利用することが多い。 以前の研究では、この現象をPopQAデータセットで特定しており、最も一般的な質問はLLMのパラメトリックメモリを使用して効果的に対処されている。 次に、既存のオープンドメイン質問応答データセットを活用して、LLMのための調整されたトレーニング手法を提案する。 そこでLLMは,質問に対する答えがわからない場合に,特別なトークン<RET>を生成するように訓練される。 PopQAデータセット上のAdaptive Retrieval LLM(Adapt-LLM)の評価では、同じLLMに対して3つの構成で改善が示されている。 一 すべての質問について情報を取得すること。 二 LLMのパラメトリックメモリを常に使用すること、及び 三 人気閾値を用いて、レトリバーをいつ使うかを決定すること。 分析の結果,Adapt-LLM が<RET> トークンを生成できることが示され,IR の必要性が示される質問に答える方法がわからないこと,パラメトリックメモリのみに頼っている場合の精度が顕著に向上していることが確認された。

In this paper, we demonstrate how Large Language Models (LLMs) can effectively learn to use an off-the-shelf information retrieval (IR) system specifically when additional context is required to answer a given question. Given the performance of IR systems, the optimal strategy for question answering does not always entail external information retrieval; rather, it often involves leveraging the parametric memory of the LLM itself. Prior research has identified this phenomenon in the PopQA dataset, wherein the most popular questions are effectively addressed using the LLM's parametric memory, while less popular ones require IR system usage. Following this, we propose a tailored training approach for LLMs, leveraging existing open-domain question answering datasets. Here, LLMs are trained to generate a special token, <RET>, when they do not know the answer to a question. Our evaluation of the Adaptive Retrieval LLM (Adapt-LLM) on the PopQA dataset showcases improvements over the same LLM under three configurations: (i) retrieving information for all the questions, (ii) using always the parametric memory of the LLM, and (iii) using a popularity threshold to decide when to use a retriever. Through our analysis, we demonstrate that Adapt-LLM is able to generate the <RET> token when it determines that it does not know how to answer a question, indicating the need for IR, while it achieves notably high accuracy levels when it chooses to rely only on its parametric memory.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# RTG-SLAM:Gaussian Splatting を用いたリアルタイム3次元再構成

RTG-SLAM: Real-time 3D Reconstruction at Scale using Gaussian Splatting ( http://arxiv.org/abs/2404.19706v1 )

ライセンス: Link先を確認
Zhexi Peng, Tianjia Shao, Yong Liu, Jingke Zhou, Yin Yang, Jingdong Wang, Kun Zhou, (参考訳) 本稿では,RGBDカメラを用いたリアルタイム3次元再構成システムRTG-SLAMを提案する。 RTG-SLAMはコンパクトなガウス表現と高効率なオンザフライガウス最適化スキームを備えている。 それぞれのガウス語は不透明かほぼ透明で、不透明なものは表面色と支配的な色に、透明なものは残留色に適合する。 色レンダリングと異なる方法で深度をレンダリングすることにより、複数の重複するガウスを必要とせずに、単一の不透明ガウスを局所的な曲面領域に適合させ、メモリと計算コストを大幅に削減する。 オンザフライガウス最適化では、1フレームあたりの3種類の画素に対してガウスアンを明示的に追加する。 我々はまた、全てのガウスを安定で不安定なものに分類し、安定なガウスは以前に観測されたRGBD画像によく適合し、そうでなければ不安定であると予測される。 我々は不安定なガウス語のみを最適化し、不安定なガウス語が占めるピクセルのみを描画する。 このように、最適化対象のガウス数とレンダリング対象の画素数をともに大幅に削減し、リアルタイムで最適化を行うことができる。 実物大シーンをリアルタイムに再現する。 現状のNeRFベースのRGBD SLAMと比較すると,本システムは高画質な再構成を実現するが,メモリコストの約2倍の速度で実現でき,新しいビュー合成とカメラトラッキングの精度の現実性において優れた性能を示す。

We propose RTG-SLAM, a real-time 3D reconstruction system with an RGBD camera for large-scale environments using Gaussian splatting. RTG-SLAM features a compact Gaussian representation and a highly efficient on-the-fly Gaussian optimization scheme. We force each Gaussian to be either opaque or nearly transparent, with the opaque ones fitting the surface and dominant colors, and transparent ones fitting residual colors. By rendering depth in a different way from color rendering, we let a single opaque Gaussian well fit a local surface region without the need of multiple overlapping Gaussians, hence largely reducing the memory and computation cost. For on-the-fly Gaussian optimization, we explicitly add Gaussians for three types of pixels per frame: newly observed, with large color errors and with large depth errors. We also categorize all Gaussians into stable and unstable ones, where the stable Gaussians are expected to well fit previously observed RGBD images and otherwise unstable. We only optimize the unstable Gaussians and only render the pixels occupied by unstable Gaussians. In this way, both the number of Gaussians to be optimized and pixels to be rendered are largely reduced, and the optimization can be done in real time. We show real-time reconstructions of a variety of real large scenes. Compared with the state-of-the-art NeRF-based RGBD SLAM, our system achieves comparable high-quality reconstruction but with around twice the speed and half the memory cost, and shows superior performance in the realism of novel view synthesis and camera tracking accuracy.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# ハーモニックLLMは信頼できる

Harmonic LLMs are Trustworthy ( http://arxiv.org/abs/2404.19708v1 )

ライセンス: Link先を確認
Nicholas S. Kersting, Mohammad Rahman, Suchismitha Vedala, Yang Wang, (参考訳) 実時間におけるブラックボックスLEMのロバスト性(安定性と説明可能性)を実時間で検証するための直観的手法を提案する。 我々の知る限りでは、これは LLM からの任意の応答のロバスト性を測定するための、完全にモデルに依存しない教師なしの手法としては初めてであり、モデル自体が純粋に数学的標準に準拠している。 人間のアノテーション実験により、$\gamma$の正の相関を偽あるいは誤解を招く答えと示し、確率勾配における$\gamma$の勾配に従えば、敵のプロンプトを効果的に露出することを示した。 一般的なLLM(GPT-4, ChatGPT, Claude-2.1, Mixtral-8x7B, Smaug-72B, Llama2-7B, MPT-7B)における何千ドルものクエリに対して$\gamma$を計測することで、さまざまな目的領域(Web QA, TruthfulQA, Programming QA)におけるこれらのモデルの信頼性を自動で評価することができる。 テストされたすべてのモデルとドメインで、人間の評価では、$\gamma \to 0$は信頼性を示し、これらのモデルの低い$\gamma$リーダーはGPT-4、ChatGPT、Smaug-72Bである。

We introduce an intuitive method to test the robustness (stability and explainability) of any black-box LLM in real-time, based upon the local deviation from harmoniticity, denoted as $\gamma$. To the best of our knowledge this is the first completely model-agnostic and unsupervised method of measuring the robustness of any given response from an LLM, based upon the model itself conforming to a purely mathematical standard. We conduct human annotation experiments to show the positive correlation of $\gamma$ with false or misleading answers, and demonstrate that following the gradient of $\gamma$ in stochastic gradient ascent efficiently exposes adversarial prompts. Measuring $\gamma$ across thousands of queries in popular LLMs (GPT-4, ChatGPT, Claude-2.1, Mixtral-8x7B, Smaug-72B, Llama2-7B, and MPT-7B) allows us to estimate the liklihood of wrong or hallucinatory answers automatically and quantitatively rank the reliability of these models in various objective domains (Web QA, TruthfulQA, and Programming QA). Across all models and domains tested, human ratings confirm that $\gamma \to 0$ indicates trustworthiness, and the low-$\gamma$ leaders among these models are GPT-4, ChatGPT, and Smaug-72B.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# トポロジカルな表現の分類のための階数分解

A rank decomposition for the topological classification of neural representations ( http://arxiv.org/abs/2404.19710v1 )

ライセンス: Link先を確認
Kosio Beshkov, Gaute T. Einevoll, (参考訳) ニューラルネットワークは入力データセットに変換を適用するものだと考えることができる。 このようなデータセットのトポロジを変更する方法は、多くのタスク、特に分類問題のような最適解に対する非同型写像を必要とするタスクにおいて、実際的な意味を持つことが多い。 本研究では,ニューラルネットワークが連続的なピースワイズアフィン写像と等価であるという事実を利用して,非同相変換を行う入力空間の領域をピンポイントすることで,入力データセットのトポロジ的構造の変化をもたらす。 このアプローチは相対ホモロジー列を利用することができ、そこでは多様体 $\mathcal{M}$ と部分集合 $A$ の商のホモロジー群を、これらの空間上のいくつかの最小の性質を仮定して研究することができる。 原理の証明として,ネットワーク幅と平均重量の関数として,低ランク(位相変化)アフィンマップの存在を実証的に検討する。 ランダムに初期化された狭いネットワークでは、データ多様体の(コ)ホモロジー群が変化する領域が存在することを示す。 幅が大きくなると、入力多様体のホモロジー群はより保存されやすくなる。 我々は、この特性を持たない非常に非ランダムな広義のネットワークを構築し、この非ランダムな体制を、生物学的ニューラルネットワークの定義的特徴であるデールの原理に関連付けることで、我々の研究のこの部分を終える。 最後に,MNISTで訓練された単純なフィードフォワードネットワークと,おもちゃの分類と回帰タスクについて検討し,トレーニング対象のタスクの連続性に応じて,ネットワークがデータのトポロジを異なる方法で操作することを示す。

Neural networks can be thought of as applying a transformation to an input dataset. The way in which they change the topology of such a dataset often holds practical significance for many tasks, particularly those demanding non-homeomorphic mappings for optimal solutions, such as classification problems. In this work, we leverage the fact that neural networks are equivalent to continuous piecewise-affine maps, whose rank can be used to pinpoint regions in the input space that undergo non-homeomorphic transformations, leading to alterations in the topological structure of the input dataset. Our approach enables us to make use of the relative homology sequence, with which one can study the homology groups of the quotient of a manifold $\mathcal{M}$ and a subset $A$, assuming some minimal properties on these spaces. As a proof of principle, we empirically investigate the presence of low-rank (topology-changing) affine maps as a function of network width and mean weight. We show that in randomly initialized narrow networks, there will be regions in which the (co)homology groups of a data manifold can change. As the width increases, the homology groups of the input manifold become more likely to be preserved. We end this part of our work by constructing highly non-random wide networks that do not have this property and relating this non-random regime to Dale's principle, which is a defining characteristic of biological neural networks. Finally, we study simple feedforward networks trained on MNIST, as well as on toy classification and regression tasks, and show that networks manipulate the topology of data differently depending on the continuity of the task they are trained on.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# QuTracer:Qubitのサブセット追跡による量子ゲートと測定誤差の緩和

QuTracer: Mitigating Quantum Gate and Measurement Errors by Tracing Subsets of Qubits ( http://arxiv.org/abs/2404.19712v1 )

ライセンス: Link先を確認
Peiyi Li, Ji Liu, Alvin Gonzales, Zain Hamid Saleem, Huiyang Zhou, Paul Hovland, (参考訳) 量子誤差緩和は、現在のノイズの中規模量子(NISQ)時代に重要な役割を果たす。 短期的に実用的な量子優位性を達成するために進むと、エラー軽減は必須成分として現れる。 傑出した先行研究であるJigsawは、クォービットのサブセットを測定することで、クロストークエラーの測定を効果的に緩和できることを示した。 Jigsawは元の回路の複数のコピーを実行することで動作し、各時間はキュービットのサブセットだけを測定する。 測定部分集合から得られる局所分布はクロストークの減少に悩まされ、グローバル分布の更新に使用される。 提案するQuTracerは,キュービットのサブセットにおけるゲートおよび測定誤差の軽減を目的としたフレームワークで,計算過程を通じてキュービットのサブセットの状態を追跡する。 この目的を達成するために、回路切断とPauli Check Sandwiching(PCS)を利用したqubit subsetting Pauli checks(QSPC)という手法を導入する。 QuTracerフレームワークは、VQE、QAOA、量子演算回路、QPE、ハミルトンシミュレーションなど、様々なアルゴリズムに適用することができる。 実験では、ノイズの多いシミュレーションと実デバイス実験の両方を行い、QuTracerがスケーラブルであり、最先端のアプローチを著しく上回っていることを示す。

Quantum error mitigation plays a crucial role in the current noisy-intermediate-scale-quantum (NISQ) era. As we advance towards achieving a practical quantum advantage in the near term, error mitigation emerges as an indispensable component. One notable prior work, Jigsaw, demonstrates that measurement crosstalk errors can be effectively mitigated by measuring subsets of qubits. Jigsaw operates by running multiple copies of the original circuit, each time measuring only a subset of qubits. The localized distributions yielded from measurement subsetting suffer from less crosstalk and are then used to update the global distribution, thereby achieving improved output fidelity. Inspired by the idea of measurement subsetting, we propose QuTracer, a framework designed to mitigate both gate and measurement errors in subsets of qubits by tracing the states of qubit subsets throughout the computational process. In order to achieve this goal, we introduce a technique, qubit subsetting Pauli checks (QSPC), which utilizes circuit cutting and Pauli Check Sandwiching (PCS) to trace the qubit subsets distribution to mitigate errors. The QuTracer framework can be applied to various algorithms including, but not limited to, VQE, QAOA, quantum arithmetic circuits, QPE, and Hamiltonian simulations. In our experiments, we perform both noisy simulations and real device experiments to demonstrate that QuTracer is scalable and significantly outperforms the state-of-the-art approaches.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# 半構造化データと大規模言語モデルの統合による高品質医療シミュレーションシナリオの自動生成

Automated Generation of High-Quality Medical Simulation Scenarios Through Integration of Semi-Structured Data and Large Language Models ( http://arxiv.org/abs/2404.19713v1 )

ライセンス: Link先を確認
Scott Sumpter, (参考訳) 本研究では,医学シミュレーションシナリオの作成を自動化するために,半構造化データと大規模言語モデル(LLM)を統合することにより,医学教育の変革的枠組みを提案する。 伝統的に、これらのシナリオの開発は、様々な教育的ニーズを満たすための柔軟性が制限された、時間を要するプロセスであった。 提案手法はAIを用いて、特定の教育目的に合わせて、詳細な、臨床的に関係のあるシナリオを効率的に生成する。 この革新はシナリオ開発に必要な時間とリソースを大幅に削減し、より広範なシミュレーションを可能にした。 教育者や学習者からの予備的なフィードバックは、エンゲージメントの向上と知識獲得の改善を示し、シミュレーションベースの学習におけるこのAI強化手法の有効性を確認している。 構造化されたデータとLLMの統合は、作成プロセスの合理化だけでなく、医療訓練に革命をもたらす、スケーラブルでダイナミックなソリューションも提供します。

This study introduces a transformative framework for medical education by integrating semi-structured data with Large Language Models (LLMs), primarily OpenAIs ChatGPT3.5, to automate the creation of medical simulation scenarios. Traditionally, developing these scenarios was a time-intensive process with limited flexibility to meet diverse educational needs. The proposed approach utilizes AI to efficiently generate detailed, clinically relevant scenarios that are tailored to specific educational objectives. This innovation has significantly reduced the time and resources required for scenario development, allowing for a broader variety of simulations. Preliminary feedback from educators and learners has shown enhanced engagement and improved knowledge acquisition, confirming the effectiveness of this AI-enhanced methodology in simulation-based learning. The integration of structured data with LLMs not only streamlines the creation process but also offers a scalable, dynamic solution that could revolutionize medical training, highlighting the critical role of AI in advancing educational outcomes and patient care standards.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# ThangDLU at #SMM4H 2024: Encoder-decoder model for Classification of text data on social disorders in children and Adolescents

ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents ( http://arxiv.org/abs/2404.19714v1 )

ライセンス: Link先を確認
Hoang-Thang Ta, Abu Bakar Siddiqur Rahman, Lotfollah Najjar, Alexander Gelbukh, (参考訳) 本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。 タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。 タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。 BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。 また、モデルの性能への影響を確認するために、いくつかのデータ拡張手法も提示した。 最後に、このシステムは第3タスクで0.627のF1スコア、第5タスクで0.841のF1スコアを得た。

This paper describes our participation in Task 3 and Task 5 of the #SMM4H (Social Media Mining for Health) 2024 Workshop, explicitly targeting the classification challenges within tweet data. Task 3 is a multi-class classification task centered on tweets discussing the impact of outdoor environments on symptoms of social anxiety. Task 5 involves a binary classification task focusing on tweets reporting medical disorders in children. We applied transfer learning from pre-trained encoder-decoder models such as BART-base and T5-small to identify the labels of a set of given tweets. We also presented some data augmentation methods to see their impact on the model performance. Finally, the systems obtained the best F1 score of 0.627 in Task 3 and the best F1 score of 0.841 in Task 5.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# 実世界のマルウェアキャンペーンにおける悪意あるコードの難読化におけるLCMの評価

Assessing LLMs in Malicious Code Deobfuscation of Real-world Malware Campaigns ( http://arxiv.org/abs/2404.19715v1 )

ライセンス: Link先を確認
Constantinos Patsakis, Fran Casino, Nikolaos Lykousas, (参考訳) 大規模言語モデル(LLM)の様々なパイプラインへの統合はますます広まり、多くの手動タスクを効果的に自動化し、しばしば人間の能力を超えている。 サイバーセキュリティ研究者や専門家は、この可能性を認識している。 そのため彼らは、異常、潜在的なバイパス、攻撃、不正なインシデントを識別するために処理を必要とする膨大な量の異種データを考慮し、その応用を積極的に検討している。 これに加えて、機能コードの生成、コードコンテキストの理解、操作の要約といったLLMの高度な機能は、リバースエンジニアリングやマルウェアの難読化にも活用できる。 この目的のために、我々は最先端のLLMの難読化能力を探究する。 仮説的なシナリオを議論するだけでなく、悪名高いEmotetマルウェアキャンペーンで使われた現実の悪意のあるスクリプトで4つのLSMを評価する。 以上の結果から,まだ完全には正確ではないものの,これらのペイロードを効率よく除去できるLCMが存在することが示唆された。 したがって、このタスクの微調整 LLM は、難解なマルウェアとの戦いにおいて、将来のAIによる脅威インテリジェンスパイプラインの可能性を秘めている。

The integration of large language models (LLMs) into various pipelines is increasingly widespread, effectively automating many manual tasks and often surpassing human capabilities. Cybersecurity researchers and practitioners have recognised this potential. Thus, they are actively exploring its applications, given the vast volume of heterogeneous data that requires processing to identify anomalies, potential bypasses, attacks, and fraudulent incidents. On top of this, LLMs' advanced capabilities in generating functional code, comprehending code context, and summarising its operations can also be leveraged for reverse engineering and malware deobfuscation. To this end, we delve into the deobfuscation capabilities of state-of-the-art LLMs. Beyond merely discussing a hypothetical scenario, we evaluate four LLMs with real-world malicious scripts used in the notorious Emotet malware campaign. Our results indicate that while not absolutely accurate yet, some LLMs can efficiently deobfuscate such payloads. Thus, fine-tuning LLMs for this task can be a viable potential for future AI-powered threat intelligence pipelines in the fight against obfuscated malware.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# 怠け者(NTK)と金持ち(μ$P) : 穏やかなチュートリアル

The lazy (NTK) and rich ($μ$P) regimes: a gentle tutorial ( http://arxiv.org/abs/2404.19719v1 )

ライセンス: Link先を確認
Dhruva Karkada, (参考訳) 現代の機械学習パラダイムの中心的なテーマは、大規模ニューラルネットワークがさまざまなメトリクスでより良いパフォーマンスを達成することである。 これらの過パラメータ化モデルの理論的解析は、最近、非常に広いニューラルネットワークの研究を中心にしている。 本チュートリアルでは,広帯域ネットワークを効果的に訓練するには,学習速度や初期重量の大きさなどのハイパーパラメータを選択する自由度が1度しかない,という,非厳密だが実証的な事実の導出を行う。 この自由度は、トレーニング行動の豊かさを制御します。最小限のネットワークは、カーネルマシンのように遅延し、最大で、いわゆる$\mu$Pの仕組みで特徴学習を行うことができます。 本稿では、このリッチネス尺度を説明し、最近の研究結果をコヒーレントな全体へ合成し、新たな視点と直観を提供し、我々の主張を裏付ける実証的な証拠を提供する。 そうすることで、我々は、実用的なディープニューラルネットワークにおける特徴学習の科学的理論を開発する上で鍵となるであろう、リッチネススケールのさらなる研究を奨励したいと考えています。

A central theme of the modern machine learning paradigm is that larger neural networks achieve better performance on a variety of metrics. Theoretical analyses of these overparameterized models have recently centered around studying very wide neural networks. In this tutorial, we provide a nonrigorous but illustrative derivation of the following fact: in order to train wide networks effectively, there is only one degree of freedom in choosing hyperparameters such as the learning rate and the size of the initial weights. This degree of freedom controls the richness of training behavior: at minimum, the wide network trains lazily like a kernel machine, and at maximum, it exhibits feature learning in the so-called $\mu$P regime. In this paper, we explain this richness scale, synthesize recent research results into a coherent whole, offer new perspectives and intuitions, and provide empirical evidence supporting our claims. In doing so, we hope to encourage further study of the richness scale, as it may be key to developing a scientific theory of feature learning in practical deep neural networks.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# 量子ネットワーク上での効率的なマルチパーティ量子鍵分布

Efficient Multiparty Quantum Key Distribution over Quantum Networks ( http://arxiv.org/abs/2404.19720v1 )

ライセンス: Link先を確認
Samuel Oslovich, Bing Wang, Walter Krawec, Kenneth Goodenough, (参考訳) マルチパーティ量子鍵分布(QKD)は、セキュアな通信や複数のパーティ間の協調を含む多くのアプリケーションに有用である。 ペアワイズQKDを使って実現可能だが、より効率的なアプローチは、複数のパーティを接続する量子ネットワーク上に分散されたマルチパーティ・エンタングルメントを使用することである。 しかし、既存のマルチパーティエンタングルメント分布の研究は、マルチパーティQKDのために設計されておらず、秘密鍵生成率を最大化することを目的としていない。 本稿では,量子ネットワーク上でのマルチパーティQKDの効率的な戦略を設計する。 サードパーティのQKDでは、量子ネットワーク上の鍵分布を解析するためのクローズドフォーム式を導出する。 次に、これを3つを繋ぐ複数の星をパックすることで、3つのパーティQKDの効率的な戦略を開発するために使用します。 N-party QKDの一般的な形式として、N-partyを接続する複数の木を包み込み、ネットワークパスに推定キーレートを直接組み込むアプローチを開発する。 グリッドグラフとランダムグラフの両方において、広範囲な設定で戦略を広範囲に評価することにより、我々のスキームは高いキーレートを達成でき、パーティ数を増やすと優雅に低下することを示す。

Multiparty quantum key distribution (QKD) is useful for many applications that involve secure communication or collaboration among multiple parties. While it can be achieved using pairwise QKD, a more efficient approach is to achieve it using multipartite entanglement distributed over quantum networks that connect the multiple parties. Existing studies on multipartite entanglement distribution, however, are not designed for multiparty QKD, and hence do not aim to maximize secret key generation rate. In this paper, we design efficient strategies for multiparty QKD over quantum networks. For 3-party QKD, we derive closed-form expressions for analyzing key distribution over quantum networks. We then use it to develop an efficient strategy for 3-party QKD by packing multiple stars that connect the 3 parties. For the general form of N-party QKD, we develop an approach that packs multiple trees to connect the N parties, while directly incorporating the estimated key rates on network paths. Extensive evaluation of our strategies, in both grid and random graphs, under a wide range of settings, demonstrates that our schemes achieve high key rate, which degrades gracefully when increasing the number of parties.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# PANGeA: ターン型ビデオゲームのための生成AIを用いた手続き型人工物語

PANGeA: Procedural Artificial Narrative using Generative AI for Turn-Based Video Games ( http://arxiv.org/abs/2404.19721v1 )

ライセンス: Link先を確認
Steph Buongiorno, Lawrence Jake Klinkert, Tanishq Chawla, Zixin Zhuang, Corey Clark, (参考訳) 本研究では,大規模言語モデル(LLM)を活用するための構造化アプローチであるPANGeA(Procedural Artificial Narrative Using Generative AI)を紹介した。 ゲームデザインに使用されるLLMの以前の応用とは違って、PANGeAはゲームレベルデータ(設定、キーアイテム、非プレイ可能な文字(NPC)を含むものではない)を生成するだけでなく、プレイヤーとプロシージャゲーム物語に沿った環境との間の動的で自由な相互作用を育むことで革新する。 PANGeAが生成するNPCは人格バイアスを受けており、生成した応答においてBig 5 Personality Modelの特徴を表現している。 PANGeAは、ゲームナラティブの範囲を超えてLSM応答を促せる自由形式のテキスト入力の取り込みの背景にある課題に対処する。 LLMのインテリジェンスを利用した新しいバリデーションシステムは,テキスト入力を評価し,生成した応答を展開物語と整合させる。 これらのインタラクションを可能にするために、PANGeAは、生成されたレスポンスを拡張するためのコンテキストを提供するカスタムメモリシステムをホストするサーバによってサポートされ、手続き的な物語と整合する。 幅広いアプリケーションのために、サーバにはRESTインターフェースがあり、任意のゲームエンジンがPANGeAと直接統合できる。 2種類のデモゲームの実証実験とアブレーションテストにより, PANGeAの動的物語生成をプロシージャ物語に整合させることで, 動的物語生成を促進できることを示す。 これらは、ブラウザベースのカスタムGPTとUnityのデモだ。 結果が示すように、PANGeAは、可変かつ予測不能な自由形式のテキスト入力が提供された場合でも、ゲームデザイナーがLSMを使用して物語に一貫性のあるコンテンツを生成するのを支援する可能性がある。

This research introduces Procedural Artificial Narrative using Generative AI (PANGeA), a structured approach for leveraging large language models (LLMs), guided by a game designer's high-level criteria, to generate narrative content for turn-based role-playing video games (RPGs). Distinct from prior applications of LLMs used for video game design, PANGeA innovates by not only generating game level data (which includes, but is not limited to, setting, key items, and non-playable characters (NPCs)), but by also fostering dynamic, free-form interactions between the player and the environment that align with the procedural game narrative. The NPCs generated by PANGeA are personality-biased and express traits from the Big 5 Personality Model in their generated responses. PANGeA addresses challenges behind ingesting free-form text input, which can prompt LLM responses beyond the scope of the game narrative. A novel validation system that uses the LLM's intelligence evaluates text input and aligns generated responses with the unfolding narrative. Making these interactions possible, PANGeA is supported by a server that hosts a custom memory system that supplies context for augmenting generated responses thus aligning them with the procedural narrative. For its broad application, the server has a REST interface enabling any game engine to integrate directly with PANGeA, as well as an LLM interface adaptable with local or private LLMs. PANGeA's ability to foster dynamic narrative generation by aligning responses with the procedural narrative is demonstrated through an empirical study and ablation test of two versions of a demo game. These are, a custom, browser-based GPT and a Unity demo. As the results show, PANGeA holds potential to assist game designers in using LLMs to generate narrative-consistent content even when provided varied and unpredictable, free-form text input.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# PACER+: シナリオ駆動におけるオンデマンド歩行者アニメーションコントローラ

PACER+: On-Demand Pedestrian Animation Controller in Driving Scenarios ( http://arxiv.org/abs/2404.19722v1 )

ライセンス: Link先を確認
Jingbo Wang, Zhengyi Luo, Ye Yuan, Yixuan Li, Bo Dai, (参考訳) 運転シナリオにおける歩行者シミュレーションにおけるコンテンツ多様性と制御可能性の課題に対処する。 近年の歩行者アニメーションの枠組みは、主に軌跡 [46] や基準映像 [57] の内容に焦点を合わせており、その結果、そのようなシナリオにおける人間の動きの潜在的な多様性を見落としている。 この制限は、より広い範囲の変動と現実的な動きを示す歩行者行動を生成する能力を制限するため、運転シミュレーションシステム内の他のコンポーネントに対してリッチな動きコンテンツを提供するためにその使用を制限する。 提案手法では, 与えられた軌跡の追従に加えて, 生成した人の動きなど, 様々な音源から得られる多様な人の動きを呈示することにより, 限界を超えるよう努めている。 本フレームワークの基本的な貢献は、運動追跡タスクと軌跡追従タスクを組み合わせることであり、これにより特定の運動部位(上半身など)の追跡を同時に行うことができ、同時に与えられた軌跡を単一の方針で追従することができる。 このようにして、与えられたシナリオ内でのシミュレーションされた人間の動きの多様性と、言語による制御を含むコンテンツの制御性の両方を著しく向上させる。 この枠組みは,運転シナリオの歩行者シミュレーションにおいて,より現実性や適応性の向上に寄与する。 詳細はプロジェクトのページhttps://wangjingbo1219.github.io/papers/CVPR2024_PACER_PLUS/PACERPLUSPage.htmlを参照してください。

We address the challenge of content diversity and controllability in pedestrian simulation for driving scenarios. Recent pedestrian animation frameworks have a significant limitation wherein they primarily focus on either following trajectory [46] or the content of the reference video [57], consequently overlooking the potential diversity of human motion within such scenarios. This limitation restricts the ability to generate pedestrian behaviors that exhibit a wider range of variations and realistic motions and therefore restricts its usage to provide rich motion content for other components in the driving simulation system, e.g., suddenly changed motion to which the autonomous vehicle should respond. In our approach, we strive to surpass the limitation by showcasing diverse human motions obtained from various sources, such as generated human motions, in addition to following the given trajectory. The fundamental contribution of our framework lies in combining the motion tracking task with trajectory following, which enables the tracking of specific motion parts (e.g., upper body) while simultaneously following the given trajectory by a single policy. This way, we significantly enhance both the diversity of simulated human motion within the given scenario and the controllability of the content, including language-based control. Our framework facilitates the generation of a wide range of human motions, contributing to greater realism and adaptability in pedestrian simulations for driving scenarios. More information is on our project page https://wangjingbo1219.github.io/papers/CVPR2024_PACER_PLUS/PACERPLUSPage.html .
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# 人間中心のフェデレーションラーニングにおけるデモグラフィックのないフェアネス

Fairness Without Demographics in Human-Centered Federated Learning ( http://arxiv.org/abs/2404.19725v1 )

ライセンス: Link先を確認
Roy Shaily, Sharma Harshit, Salekin Asif, (参考訳) フェデレートラーニング(FL)は、データのプライバシを保持しながら協調的なモデルトレーニングを可能にし、分散化された人間中心のAIアプリケーションに適している。 しかし、これらのシステムにおける公正性を確保するための重要な研究のギャップは依然として残っている。 FLの現在の公正戦略は、FLのプライバシー原則と衝突するバイアス発生/感受性属性の知識を必要とする。 さらに、人間中心のデータセットでは、センシティブな属性が潜んでいる可能性がある。 これらの課題に対処するために、機械学習において「デモグラフィックなしのフェアネス」に着想を得た、新しいバイアス緩和手法を提案する。 提案手法は, トレーニング中のヘッセン行列の最大固有値を最小限に抑え, FL参加者間の均等な損失景観を確保することにより, 感度特性の知識を必要とせずに公平性を実現する。 特に,新しいFLアグリゲーション方式を導入し,エラー率と損失ランドスケープの曲率特性に基づいて,FLシステム全体の公平性を育成する。 この研究は、人間中心FLにおける「Fairness without Demographics」の達成に向けた最初のアプローチである。 本手法は, 実世界の様々なアプリケーション, FLセットアップ, 単一および複数のバイアス誘導因子を含むシナリオにおいて, 公平性と有効性のバランスをとる上での有効性を示すものである。

Federated learning (FL) enables collaborative model training while preserving data privacy, making it suitable for decentralized human-centered AI applications. However, a significant research gap remains in ensuring fairness in these systems. Current fairness strategies in FL require knowledge of bias-creating/sensitive attributes, clashing with FL's privacy principles. Moreover, in human-centered datasets, sensitive attributes may remain latent. To tackle these challenges, we present a novel bias mitigation approach inspired by "Fairness without Demographics" in machine learning. The presented approach achieves fairness without needing knowledge of sensitive attributes by minimizing the top eigenvalue of the Hessian matrix during training, ensuring equitable loss landscapes across FL participants. Notably, we introduce a novel FL aggregation scheme that promotes participating models based on error rates and loss landscape curvature attributes, fostering fairness across the FL system. This work represents the first approach to attaining "Fairness without Demographics" in human-centered FL. Through comprehensive evaluation, our approach demonstrates effectiveness in balancing fairness and efficacy across various real-world applications, FL setups, and scenarios involving single and multiple bias-inducing factors, representing a significant advancement in human-centered FL.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# 可換量子回路の表現性:確率論的アプローチ

Expressiveness of Commutative Quantum Circuits: A Probabilistic Approach ( http://arxiv.org/abs/2404.19727v1 )

ライセンス: Link先を確認
Jorge M. Ramirez, Elaine Wong, Caio Alves, Sarah Chehade, Ryan Bennink, (参考訳) 本研究では,可換量子回路のフレームポテンシャルと表現性について検討する。 これらの回路のフーリエ級数表現に基づいて、確率変数の特性関数として量子期待とペアワイズ忠実度を表現し、格子上のランダムウォークの繰り返し確率として表現する。 我々の研究の中心的な成果は、任意の可換量子回路のフレームポテンシャルと表現性を近似する公式を含み、確率論の収束定理によって支えられている。 ランダムウォークの格子体積を回路構造に基づく表現性を近似する手段として同定する。 Pauli-$Z$回転を含む可換回路の特定の場合、表現性および回路構造に関する理論的結果を提供する。 我々の確率的表現はまた、サンプリング法による回路のフレーム電位のバウンディングと近似計算の手段も提供する。

This study investigates the frame potential and expressiveness of commutative quantum circuits. Based on the Fourier series representation of these circuits, we express quantum expectation and pairwise fidelity as characteristic functions of random variables, and expressiveness as the recurrence probability of a random walk on a lattice. A central outcome of our work includes formulas to approximate the frame potential and expressiveness for any commutative quantum circuit, underpinned by convergence theorems in probability theory. We identify the lattice volume of the random walk as means to approximate expressiveness based on circuit architecture. In the specific case of commutative circuits involving Pauli-$Z$ rotations, we provide theoretical results relating expressiveness and circuit structure. Our probabilistic representation also provide means for bounding and approximately calculating the frame potential of a circuit through sampling methods.
翻訳日:2024-05-01 13:26:28 公開日:2024-04-30
# 正確で重要な生成AIアプリケーションのための知識グラフの強化のためのヒューマン計算ゲーミングの活用フレームワーク

A Framework for Leveraging Human Computation Gaming to Enhance Knowledge Graphs for Accuracy Critical Generative AI Applications ( http://arxiv.org/abs/2404.19729v1 )

ライセンス: Link先を確認
Steph Buongiorno, Corey Clark, (参考訳) 外部知識グラフ(KGs)は、大きな言語モデル(LLMs)の拡張に使用することができ、同時に人間によって検査できる事実の説明可能な知識ベースを提供する。 このアプローチは、人間のトラフィックデータ分析のように、説明責任が重要である領域で特に有用である。 しかし、KGの作成には課題がある。 文書から解析されたKGは明示的な接続(文書によって直接記述される)から構成されるが、暗黙的な接続(直接記述されていないが人間に明らかである)を見逃す。 これらの課題に対処するため、この予備研究はGAME-KGフレームワークを導入し、"Gaming for Augmenting Metadata and Enhancing Knowledge Graphs"の略である。 GAME-KGは、ゲームを通じて収集されたクラウドソースフィードバックを使用することで、KGの明示的および暗黙的な接続を変更するための連合的なアプローチである。 GAME-KGは、ダークシャドウズのUnityテストシナリオ、米国司法省(DOJ)のプレスリリースから解析されたKGのフィードバックを収集するビデオゲーム、およびOpenAIのGPT-4が修正および修正されていないKGに基づいて質問に答えるよう促される次の実験の2つのデモで示される。 最初の結果は、GAME-KGがKGの強化に有効なフレームワークになり得ることを示唆し、同時に人間によって検証された構造化事実の説明可能なセットを提供する。

External knowledge graphs (KGs) can be used to augment large language models (LLMs), while simultaneously providing an explainable knowledge base of facts that can be inspected by a human. This approach may be particularly valuable in domains where explainability is critical, like human trafficking data analysis. However, creating KGs can pose challenges. KGs parsed from documents may comprise explicit connections (those directly stated by a document) but miss implicit connections (those obvious to a human although not directly stated). To address these challenges, this preliminary research introduces the GAME-KG framework, standing for "Gaming for Augmenting Metadata and Enhancing Knowledge Graphs." GAME-KG is a federated approach to modifying explicit as well as implicit connections in KGs by using crowdsourced feedback collected through video games. GAME-KG is shown through two demonstrations: a Unity test scenario from Dark Shadows, a video game that collects feedback on KGs parsed from US Department of Justice (DOJ) Press Releases on human trafficking, and a following experiment where OpenAI's GPT-4 is prompted to answer questions based on a modified and unmodified KG. Initial results suggest that GAME-KG can be an effective framework for enhancing KGs, while simultaneously providing an explainable set of structured facts verified by humans.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# 反復推論選好最適化

Iterative Reasoning Preference Optimization ( http://arxiv.org/abs/2404.19733v1 )

ライセンス: Link先を確認
Richard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, Jason Weston, (参考訳) 反復的選好最適化法は、最近、一般的な命令チューニングタスクに対してうまく機能することが示されているが、推論タスクにはほとんど改善がない(Yuan et al , 2024, Chen et al , 2024)。 本研究は、競合する生成したChain-of-Thought(CoT)候補間の選好を最適化する反復的アプローチを開発する。 我々は、修正DPO損失(Rafailov et al , 2023)を、追加の負の対数類似項でトレーニングする。 このスキームの繰り返し繰り返しにおける推論の改善を示す。 Llama-2-70B-Chatの精度は55.6%から81.6%に向上し、GSM8Kでは88.7%、MATHでは12.5%から20.8%、ARC-Challengeでは77.8%から86.7%に向上した。

Iterative preference optimization methods have recently been shown to perform well for general instruction tuning tasks, but typically make little improvement on reasoning tasks (Yuan et al., 2024, Chen et al., 2024). In this work we develop an iterative approach that optimizes the preference between competing generated Chain-of-Thought (CoT) candidates by optimizing for winning vs. losing reasoning steps that lead to the correct answer. We train using a modified DPO loss (Rafailov et al., 2023) with an additional negative log-likelihood term, which we find to be crucial. We show reasoning improves across repeated iterations of this scheme. While only relying on examples in the training set, our approach results in increasing accuracy for Llama-2-70B-Chat from 55.6% to 81.6% on GSM8K (and 88.7% with majority voting out of 32 samples), from 12.5% to 20.8% on MATH, and from 77.8% to 86.7% on ARC-Challenge, which outperforms other Llama-2-based models not relying on additionally sourced datasets.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# ParaGrapher を用いた大規模圧縮グラフの選択的並列ロード

Selective Parallel Loading of Large-Scale Compressed Graphs with ParaGrapher ( http://arxiv.org/abs/2404.19735v1 )

ライセンス: Link先を確認
Mohsen Koohi Esfahani, Marco D'Antonio, Syed Ibtisam Tauhidi, Thai Son Mai, Hans Vandierendonck, (参考訳) 総合評価は実験科学の基礎の1つである。 高性能グラフ処理では、さまざまなフレームワーク上で共通の入力フォーマットをサポートすることで、コントリビューションの徹底的な評価がより達成できるようになります。 しかし、それぞれのフレームワークは、大規模な実世界のグラフデータセットの読み込みをサポートしない特定のフォーマットを作成する。 これはグラフをロードできる高性能ライブラリの需要を示している。 (i)―新しいグラフアルゴリズムの設計を加速する。 (ii)~幅広いグラフアルゴリズムへの貢献を評価すること、及び (iii) 異なるグラフフレームワークに対する容易かつ高速な比較を容易にすること。 そこで我々は,大規模および圧縮されたグラフをロードする高性能APIおよびライブラリであるParaGrapherを紹介する。 ParaGrapherは、共有メモリおよび分散メモリおよびアウトオブコアグラフ処理でグラフにアクセスするためのさまざまなタイプのリクエストをサポートする。 本稿では,ParaGrapherの設計と,ParaGrapherを3つのストレージタイプで評価するグラフ圧縮の性能モデルについて説明する。 評価の結果,ParaGrapherは圧縮グラフをWebGraph形式で圧縮することにより,ロード時の最大3.2倍,エンドツーエンド実行時の最大5.2倍の高速化を実現している。 ParaGrapherはhttps://blogs.qub.ac.uk/DIPSA/ParaGrapher/.comで公開されている。

Comprehensive evaluation is one of the basis of experimental science. In High-Performance Graph Processing, a thorough evaluation of contributions becomes more achievable by supporting common input formats over different frameworks. However, each framework creates its specific format, which may not support reading large-scale real-world graph datasets. This shows a demand for high-performance libraries capable of loading graphs to (i)~accelerate designing new graph algorithms, (ii)~to evaluate the contributions on a wide range of graph algorithms, and (iii)~to facilitate easy and fast comparison over different graph frameworks. To that end, we present ParaGrapher, a high-performance API and library for loading large-scale and compressed graphs. ParaGrapher supports different types of requests for accessing graphs in shared- and distributed-memory and out-of-core graph processing. We explain the design of ParaGrapher and present a performance model of graph decompression, which is used for evaluation of ParaGrapher over three storage types. Our evaluation shows that by decompressing compressed graphs in WebGraph format, ParaGrapher delivers up to 3.2 times speedup in loading and up to 5.2 times speedup in end-to-end execution in comparison to the binary and textual formats. ParaGrapher is available online on https://blogs.qub.ac.uk/DIPSA/ParaGrapher/.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# マルチトークン予測によるより優れた高速な大規模言語モデル

Better & Faster Large Language Models via Multi-token Prediction ( http://arxiv.org/abs/2404.19737v1 )

ライセンス: Link先を確認
Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve, (参考訳) GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。 本研究では,複数の未来のトークンを一度に予測する言語モデルをトレーニングすることで,より高いサンプル効率が得られることを示唆する。 具体的には、トレーニングコーパスの各位置において、n個の独立した出力ヘッドを用いて次のn個のトークンを予測し、共有モデルトランク上で動作させる。 マルチトークン予測を補助訓練タスクとして考慮し、コードモデルと自然言語モデルの両方のトレーニング時間にオーバーヘッドを伴わずに、ダウンストリーム能力の向上を計測する。 この方法は、より大きなモデルサイズに対してますます有用であり、複数のエポックのトレーニングにおいて、その魅力を保っている。 ゲインは、コーディングのような生成ベンチマークで特に顕著で、当社のモデルは、強いベースラインを数パーセント上回っています。 我々の13Bパラメータモデルは、HumanEvalでは12%、MBPPでは17%の問題を解決する。 小さなアルゴリズムタスクの実験では、誘導ヘッドとアルゴリズム推論能力の開発にマルチトークン予測が適していることが示されている。 さらに利点として、4-token予測でトレーニングされたモデルは、大きなバッチサイズであっても、推論で最大3倍高速になる。

Large language models such as GPT and Llama are trained with a next-token prediction loss. In this work, we suggest that training language models to predict multiple future tokens at once results in higher sample efficiency. More specifically, at each position in the training corpus, we ask the model to predict the following n tokens using n independent output heads, operating on top of a shared model trunk. Considering multi-token prediction as an auxiliary training task, we measure improved downstream capabilities with no overhead in training time for both code and natural language models. The method is increasingly useful for larger model sizes, and keeps its appeal when training for multiple epochs. Gains are especially pronounced on generative benchmarks like coding, where our models consistently outperform strong baselines by several percentage points. Our 13B parameter models solves 12 % more problems on HumanEval and 17 % more on MBPP than comparable next-token models. Experiments on small algorithmic tasks demonstrate that multi-token prediction is favorable for the development of induction heads and algorithmic reasoning capabilities. As an additional benefit, models trained with 4-token prediction are up to 3 times faster at inference, even with large batch sizes.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# 3次元デノボ分子生成のための連続流とカテゴリー流の混合マッチング

Mixed Continuous and Categorical Flow Matching for 3D De Novo Molecule Generation ( http://arxiv.org/abs/2404.19739v1 )

ライセンス: Link先を確認
Ian Dunn, David Ryan Koes, (参考訳) 新規な分子構造を生成する深層生成モデルは、化学的発見を促進する可能性がある。 拡散モデルは現在、3D分子生成の最先端性能を実現している。 本研究では,拡散モデルを一般化したフローマッチング(フローマッチング)のデ・ノボ分子生成への応用について検討する。 フローマッチングはモデル設計における柔軟性を提供するが、このフレームワークは継続的に評価されたデータを想定している。 3D de novo分子の生成には、原子の位置や原子タイプなどの連続およびカテゴリー変数を共同でサンプリングする必要がある。 本稿では,フローマッチングフレームワークを,確率単純性として知られるカテゴリデータの連続的な表現に制約のあるフローを構築することにより,カテゴリデータに拡張する。 この拡張をSimplexFlowと呼びます。 De novo分子生成におけるSimplexFlowの利用について検討する。 しかし、実際には、データの分類的性質に配慮しないより単純なアプローチは、同等または優れたパフォーマンスをもたらす。 これらの実験の結果,3次元デノボ生成モデルのフローマッチングモデルであるFlowMolが,従来のフローマッチング手法よりも優れた性能を実現し,フローマッチングモデルにおいて高い性能を達成するために,先行分布の設計について重要な疑問を投げかけている。 この作業を再現するためのコードとトレーニングされたモデルはhttps://github.com/dunni3/FlowMolで公開されている。

Deep generative models that produce novel molecular structures have the potential to facilitate chemical discovery. Diffusion models currently achieve state of the art performance for 3D molecule generation. In this work, we explore the use of flow matching, a recently proposed generative modeling framework that generalizes diffusion models, for the task of de novo molecule generation. Flow matching provides flexibility in model design; however, the framework is predicated on the assumption of continuously-valued data. 3D de novo molecule generation requires jointly sampling continuous and categorical variables such as atom position and atom type. We extend the flow matching framework to categorical data by constructing flows that are constrained to exist on a continuous representation of categorical data known as the probability simplex. We call this extension SimplexFlow. We explore the use of SimplexFlow for de novo molecule generation. However, we find that, in practice, a simpler approach that makes no accommodations for the categorical nature of the data yields equivalent or superior performance. As a result of these experiments, we present FlowMol, a flow matching model for 3D de novo generative model that achieves improved performance over prior flow matching methods, and we raise important questions about the design of prior distributions for achieving strong performance in flow matching models. Code and trained models for reproducing this work are available at https://github.com/dunni3/FlowMol
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# PrivComp-KG : プライバシーポリシーコンプライアンス検証のための知識グラフと大規模言語モデルを活用する

PrivComp-KG : Leveraging Knowledge Graph and Large Language Models for Privacy Policy Compliance Verification ( http://arxiv.org/abs/2404.19744v1 )

ライセンス: Link先を確認
Leon Garza, Lavanya Elluri, Anantaa Kotal, Aritran Piplai, Deepti Gupta, Anupam Joshi, (参考訳) データ保護とプライバシーは、デジタル時代においてますます重要になりつつある。 多くの企業は、データ処理やストレージといったタスクを含む、運用内で重要な機能を実行するために、サードパーティベンダやサービスプロバイダに依存しています。 しかしながら、これらのベンダーのセキュリティ対策やプラクティスは、規制機関が期待する標準と必ずしも一致しない可能性があるため、この依存は潜在的な脆弱性をもたらす。 ビジネスは、しばしば法の支配下において、進化する規制規則に準拠するために要求される。 これらの規則の解釈と実装は、複雑さのために困難を生じさせる。 規制文書は広く、解釈のためにかなりの努力を要するが、ベンダーが作成したプライバシーポリシーは、完全な法的コンプライアンスに必要な詳細を欠いていることが多く、曖昧さにつながっている。 規制要件の簡潔な解釈と組織的プライバシポリシーの遵守を確保するため,プライバシー遵守のためのLarge Language Model(LLM)とSemantic Webベースのアプローチを提案する。 本稿では,プライバシポリシコンプライアンス検証知識グラフPrivComp-KGを開発した。 プライバシーポリシー、規制フレームワーク、およびプライバシーの法的状況に関するドメイン固有の知識に関する包括的な情報を効率的に保存し、取得するように設計されている。 Retrieval Augmented Generationを用いて、プライバシーポリシーの関連するセクションを対応する規制ルールで識別する。 このプライバシーポリシーに関する情報はPrivComp-KGに集約されている。 これとドメインコンテキストとルールを組み合わせることで、PrivComp-KGは、関連するポリシー規則に対する各ベンダのプライバシポリシへの準拠を確認するためにクエリすることができる。 各種組織におけるプライバシポリシー文書の遵守を検証することにより,PrivComp-KGの妥当性を実証する。

Data protection and privacy is becoming increasingly crucial in the digital era. Numerous companies depend on third-party vendors and service providers to carry out critical functions within their operations, encompassing tasks such as data handling and storage. However, this reliance introduces potential vulnerabilities, as these vendors' security measures and practices may not always align with the standards expected by regulatory bodies. Businesses are required, often under the penalty of law, to ensure compliance with the evolving regulatory rules. Interpreting and implementing these regulations pose challenges due to their complexity. Regulatory documents are extensive, demanding significant effort for interpretation, while vendor-drafted privacy policies often lack the detail required for full legal compliance, leading to ambiguity. To ensure a concise interpretation of the regulatory requirements and compliance of organizational privacy policy with said regulations, we propose a Large Language Model (LLM) and Semantic Web based approach for privacy compliance. In this paper, we develop the novel Privacy Policy Compliance Verification Knowledge Graph, PrivComp-KG. It is designed to efficiently store and retrieve comprehensive information concerning privacy policies, regulatory frameworks, and domain-specific knowledge pertaining to the legal landscape of privacy. Using Retrieval Augmented Generation, we identify the relevant sections in a privacy policy with corresponding regulatory rules. This information about individual privacy policies is populated into the PrivComp-KG. Combining this with the domain context and rules, the PrivComp-KG can be queried to check for compliance with privacy policies by each vendor against relevant policy regulations. We demonstrate the relevance of the PrivComp-KG, by verifying compliance of privacy policy documents for various organizations.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# 画像による線虫の定量化:ディープラーニングのデータセット、モデル、ベースライン

Quantifying Nematodes through Images: Datasets, Models, and Baselines of Deep Learning ( http://arxiv.org/abs/2404.19748v1 )

ライセンス: Link先を確認
Zhipeng Yuan, Nasamu Musa, Katarzyna Dybal, Matthew Back, Daniel Leybourne, Po Yang, (参考訳) 毎年、植物病原体の主要なグループの一つである寄生線虫は、世界中の作物を著しく減少させます。 線虫による収穫損失を軽減するため,効率的な線虫モニタリングが植物・作物の病害管理に不可欠である。 言い換えると、効率的な線虫検出は、線虫がモデル生物であるため、医学研究や薬物発見に寄与する。 コンピュータ技術の急速な発展により、コンピュータビジョン技術は、線虫や線虫感染を定量化するための実現可能なソリューションを提供する。 本稿では,深層学習モデルを用いた線虫検出のための研究と利用可能なデータセットを調査し,分類する。 関連研究の進展を促進するため,本研究では,ディープラーニング初心者を対象とした最先端物体検出モデル,トレーニング手法,最適化手法,評価指標について紹介する。 さらに,3つの公開データセットと植物寄生線虫に対するAgriNemaデータセットを用いて,最先端のオブジェクト検出モデル7つを検証し,線虫検出のためのベースラインを構築した。

Every year, plant parasitic nematodes, one of the major groups of plant pathogens, cause a significant loss of crops worldwide. To mitigate crop yield losses caused by nematodes, an efficient nematode monitoring method is essential for plant and crop disease management. In other respects, efficient nematode detection contributes to medical research and drug discovery, as nematodes are model organisms. With the rapid development of computer technology, computer vision techniques provide a feasible solution for quantifying nematodes or nematode infections. In this paper, we survey and categorise the studies and available datasets on nematode detection through deep-learning models. To stimulate progress in related research, this survey presents the potential state-of-the-art object detection models, training techniques, optimisation techniques, and evaluation metrics for deep learning beginners. Moreover, seven state-of-the-art object detection models are validated on three public datasets and the AgriNema dataset for plant parasitic nematodes to construct a baseline for nematode detection.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# スケールロバストなタイムリー非同期分散学習

Scale-Robust Timely Asynchronous Decentralized Learning ( http://arxiv.org/abs/2404.19749v1 )

ライセンス: Link先を確認
Purbesh Mitra, Sennur Ulukus, (参考訳) 本稿では,集中型パラメータサーバを使わずに機械学習モデルを学習しようとする,接続デバイスネットワークで構成される非同期分散学習システムについて考察する。 ネットワークのユーザは独自のローカルトレーニングデータを持ち、ネットワーク内のすべてのノードをまたぐ学習に使用される。 学習方法は2つのプロセスから構成され、同期を必要とせずに同時に進化する。 最初のプロセスはモデル更新で、ユーザーは定数の確率勾配降下ステップを通じてローカルモデルを更新する。 第二のプロセスはモデルミキシングであり、ユーザーはランダムなゴシップを通じて互いにコミュニケーションし、モデルを交換し、平均してコンセンサスに達する。 本研究では,個々のユーザモデルを収束させるのに十分な条件である,そのようなシステムの安定性基準について検討する。 ネットワークスケーリングでは、例えば、ユーザデバイス数$n$が非常に大きい場合、個々のユーザのゴシップ容量が$\Omega(\log n)$とスケールした場合、有限時間でユーザモデルの収束を保証することができる。 さらに、有界な安定度は、$\Omega(n)$スケーリングによって任意の分散機会的スキームによってのみ保証できることが示される。

We consider an asynchronous decentralized learning system, which consists of a network of connected devices trying to learn a machine learning model without any centralized parameter server. The users in the network have their own local training data, which is used for learning across all the nodes in the network. The learning method consists of two processes, evolving simultaneously without any necessary synchronization. The first process is the model update, where the users update their local model via a fixed number of stochastic gradient descent steps. The second process is model mixing, where the users communicate with each other via randomized gossiping to exchange their models and average them to reach consensus. In this work, we investigate the staleness criteria for such a system, which is a sufficient condition for convergence of individual user models. We show that for network scaling, i.e., when the number of user devices $n$ is very large, if the gossip capacity of individual users scales as $\Omega(\log n)$, we can guarantee the convergence of user models in finite time. Furthermore, we show that the bounded staleness can only be guaranteed by any distributed opportunistic scheme by $\Omega(n)$ scaling.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# ビジュアルファクトチェッカー:高忠実度詳細キャプション生成の実現

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation ( http://arxiv.org/abs/2404.19752v1 )

ライセンス: Link先を確認
Yunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui, (参考訳) 視覚的コンテンツの自動キャプション手法は、詳細の欠如、内容の幻覚、後続の粗末な指示といった課題に直面している。 本研究では,2次元画像と3次元オブジェクトの両方に対して,高忠実かつ詳細なキャプションを生成するフレキシブルなトレーニングフリーパイプラインであるVisualFactChecker(VFC)を提案する。 VFCは3つのステップから構成される。 1) 画像からテキストへのキャプションモデルが複数の初期キャプションを提案する提案。 2) 大規模言語モデル(LLM)は,提案されたキャプションの事実チェックにオブジェクト検出やVQAモデルなどのツールを使用する。 3) キャプションでは,LLMがキャプション提案と事実確認結果を要約して最終キャプションを生成する。 このステップでは、VFCは複雑な命令に従って様々なスタイルのキャプションを柔軟に生成できる。 4つの指標を用いて包括的キャプション評価を行う。 1)CLIP-Score for image-text similarity 2) キャプションを用いたテキスト・ツー・イメージ・モデルにより生成されたオリジナル画像と再構成画像との画像類似性を測定するCLIP-Image-Score。 3)アマゾン・メカニカル・トルコの人間研究 4) GPT-4Vを微粒化評価した。 評価の結果,VFCはCOCOデータセット上の2D画像とObjaverseデータセット上の3Dアセットに対して,最先端のオープンソースキャプション手法よりも優れていることがわかった。 我々は,オープンソースのモデルをパイプラインに組み合わせることで,モデルサイズが10倍以上小さいにもかかわらず,GPT-4Vのようなプロプライエタリなモデルに匹敵するキャプション能力が得られることを示した。

Existing automatic captioning methods for visual content face challenges such as lack of detail, content hallucination, and poor instruction following. In this work, we propose VisualFactChecker (VFC), a flexible training-free pipeline that generates high-fidelity and detailed captions for both 2D images and 3D objects. VFC consists of three steps: 1) proposal, where image-to-text captioning models propose multiple initial captions; 2) verification, where a large language model (LLM) utilizes tools such as object detection and VQA models to fact-check proposed captions; 3) captioning, where an LLM generates the final caption by summarizing caption proposals and the fact check verification results. In this step, VFC can flexibly generate captions in various styles following complex instructions. We conduct comprehensive captioning evaluations using four metrics: 1) CLIP-Score for image-text similarity; 2) CLIP-Image-Score for measuring the image-image similarity between the original and the reconstructed image generated by a text-to-image model using the caption. 3) human study on Amazon Mechanical Turk; 4) GPT-4V for fine-grained evaluation. Evaluation results show that VFC outperforms state-of-the-art open-sourced captioning methods for 2D images on the COCO dataset and 3D assets on the Objaverse dataset. Our study demonstrates that by combining open-source models into a pipeline, we can attain captioning capability comparable to proprietary models such as GPT-4V, despite being over 10x smaller in model size.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# DOCCI:コネクテッド画像とコントラスト画像の記述

DOCCI: Descriptions of Connected and Contrasting Images ( http://arxiv.org/abs/2404.19753v1 )

ライセンス: Link先を確認
Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge, (参考訳) 視覚言語データセットは、テキスト・トゥ・イメージ(T2I)と画像・トゥ・テキスト(I2T)の両方の研究に不可欠である。 しかし、現在のデータセットには、よりリッチなアソシエーションをモデルで学べる詳細な記述がない。 このギャップを埋めるために、私たちは、空間関係、カウント、テキストレンダリング、世界知識などの重要な課題を捉えることを目的とした、単一の研究者によって撮影、キュレーション、寄付された15k画像のための、長く人間に注釈を付けた英語記述のデータセットである、接続されたコントラスト画像の記述(DOCCI)を紹介した。 これらの平均136語の長さは、各画像と関連するものや類似したものを明確に区別するために設計されている。 それぞれの記述は極めて構成的であり、典型的には複数の課題を含んでいる。 定量的および定性的な分析により、DOCCIは画像・テキスト生成の効果的なトレーニングリソースとして機能し、DOCCIに微調整されたPaLI 5Bモデルは、LLaVA-1.5 7BやInstructBLIP 7Bのような高性能なモデルと比較して、同等または優れた結果を示す。 さらに、DOCCIはテキスト・ツー・イメージ生成に有用なテストベッドであり、長い記述や詳細をキャプチャする際の現在のテキスト・ツー・イメージモデルの限界を強調している。

Vision-language datasets are vital for both text-to-image (T2I) and image-to-text (I2T) research. However, current datasets lack descriptions with fine-grained detail that would allow for richer associations to be learned by models. To fill the gap, we introduce Descriptions of Connected and Contrasting Images (DOCCI), a dataset with long, human-annotated English descriptions for 15k images that were taken, curated and donated by a single researcher intent on capturing key challenges such as spatial relations, counting, text rendering, world knowledge, and more. We instruct human annotators to create comprehensive descriptions for each image; these average 136 words in length and are crafted to clearly distinguish each image from those that are related or similar. Each description is highly compositional and typically encompasses multiple challenges. Through both quantitative and qualitative analyses, we demonstrate that DOCCI serves as an effective training resource for image-to-text generation -- a PaLI 5B model finetuned on DOCCI shows equal or superior results compared to highly-performant larger models like LLaVA-1.5 7B and InstructBLIP 7B. Furthermore, we show that DOCCI is a useful testbed for text-to-image generation, highlighting the limitations of current text-to-image models in capturing long descriptions and fine details.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# コンパイルされた非局所ゲームによる標準仮定からのQMAの帰属論

Succinct arguments for QMA from standard assumptions via compiled nonlocal games ( http://arxiv.org/abs/2404.19754v1 )

ライセンス: Link先を確認
Tony Metger, Anand Natarajan, Tina Zhang, (参考訳) 我々は、NPの量子アナログであるQMAの簡潔な古典的引数系を、汎用的および標準的な暗号的仮定から構築する。 以前はマハデフ (FOCS '18) やバルタネク (CRYPTO '22) の以前の業績に基づいて、QMAの簡潔な古典的論証システムを構築していた。 しかし、それらの構成は、標準的な暗号的仮定から知られていない非常に強力なプリミティブである、時間的に安全な不明瞭性難読化に依存していた。 対照的に、私たちが使用するプリミティブ(すなわち、崩壊するハッシュ関数と量子準同型暗号の弱いバージョン)はより弱く、LWEのような標準仮定によって暗示される。 提案プロトコルは,Kalai et al (STOC '23) が任意の量子非局所ゲームから引数システムにコンパイルする候補手法として設計した汎用変換を用いて構築される。 我々の主な技術的貢献は、最大絡み合った状態のパウリ測度に対する簡潔な自己検定に適用された際の、この変換の健全性を分析することである。

We construct a succinct classical argument system for QMA, the quantum analogue of NP, from generic and standard cryptographic assumptions. Previously, building on the prior work of Mahadev (FOCS '18), Bartusek et al. (CRYPTO '22) also constructed a succinct classical argument system for QMA. However, their construction relied on post-quantumly secure indistinguishability obfuscation, a very strong primitive which is not known from standard cryptographic assumptions. In contrast, the primitives we use (namely, collapsing hash functions and a mild version of quantum homomorphic encryption) are much weaker and are implied by standard assumptions such as LWE. Our protocol is constructed using a general transformation which was designed by Kalai et al. (STOC '23) as a candidate method to compile any quantum nonlocal game into an argument system. Our main technical contribution is to analyze the soundness of this transformation when it is applied to a succinct self-test for Pauli measurements on maximally entangled states, the latter of which is a key component in the proof of MIP*=RE in quantum complexity.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# Kan: Kolmogorov-Arnold Networks

KAN: Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2404.19756v1 )

ライセンス: Link先を確認
Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark, (参考訳) コルモゴロフ・アルノルド表現定理に着想を得て、多層受容器(MLP)の代替としてコルモゴロフ・アルノルドネットワーク(KAN)を提案する。 MLPはノード(ニューロン)上で一定の活性化関数を持つが、Kanはエッジ(重み)上で学習可能な活性化関数を持つ。 カンは線形重みを全く持たず、全ての重みパラメータはスプラインとしてパラメータ化された単変量関数に置き換えられる。 この一見単純な変化により、KANSA は精度と解釈可能性において MLP を上回ります。 正確性のために、より小さなkanは、データフィッティングやPDE解決において、はるかに大きなMLPよりも同等またはより良い精度を達成することができる。 理論上、実証上、カンはMLPよりも高速なニューラルスケーリング法則を持っている。 解釈可能性のために、KANSAは直感的に視覚化でき、人間のユーザと簡単に対話できる。 数学と物理学の2つの例を通して、カンは科学者が数学的および物理的法則を発見(再発見)するのに有用な協力者であることが示されている。 要約すると、KansはMLPの代替として有望であり、MDPに大きく依存する今日のディープラーニングモデルをさらに改善する機会を開く。

Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activation functions on edges ("weights"). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametrized as a spline. We show that this seemingly simple change makes KANs outperform MLPs in terms of accuracy and interpretability. For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today's deep learning models which rely heavily on MLPs.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# Invisible Stitch:Depth Inpaintingによる滑らかな3Dシーンの生成

Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting ( http://arxiv.org/abs/2404.19758v1 )

ライセンス: Link先を確認
Paul Engstler, Andrea Vedaldi, Iro Laina, Christian Rupprecht, (参考訳) 3次元シーン生成は、2次元生成拡散モデルの一貫した改善により、急速に挑戦的な新しい研究方向となった。 この領域における多くの先行研究は、既存の幾何学で新しく生成されたフレームを反復的に縫い合わせることによってシーンを生成する。 これらの作品は、既存のシーン表現と融合して生成された画像を3Dに上げるために、事前訓練された単眼深度推定器に依存することが多い。 これらのアプローチはテキストメトリックを通じてしばしば評価され、生成された画像と与えられたテキストプロンプトの類似度を測定する。 本研究では,3次元シーン生成の分野に2つの基本的な貢献を行う。 まず,モノクロ深度推定モデルを用いて3Dに画像を持ち上げることは,既存のシーンの形状を無視するため,最適ではないことに注意する。 そこで我々は,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを導入し,その結果,シーンの幾何的コヒーレンスが改善された。 第2に,実測に基づくシーン生成手法の新たなベンチマーク手法を導入し,シーンの構造の質を計測する。

3D scene generation has quickly become a challenging new research direction, fueled by consistent improvements of 2D generative diffusion models. Most prior work in this area generates scenes by iteratively stitching newly generated frames with existing geometry. These works often depend on pre-trained monocular depth estimators to lift the generated images into 3D, fusing them with the existing scene representation. These approaches are then often evaluated via a text metric, measuring the similarity between the generated images and a given text prompt. In this work, we make two fundamental contributions to the field of 3D scene generation. First, we note that lifting images to 3D with a monocular depth estimation model is suboptimal as it ignores the geometry of the existing scene. We thus introduce a novel depth completion model, trained via teacher distillation and self-training to learn the 3D fusion process, resulting in improved geometric coherence of the scene. Second, we introduce a new benchmarking scheme for scene generation methods that is based on ground truth geometry, and thus measures the quality of the structure of the scene.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# MotionLCM:潜時整合モデルによるリアルタイム制御可能な運動生成

MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model ( http://arxiv.org/abs/2404.19759v1 )

ライセンス: Link先を確認
Wenxun Dai, Ling-Hao Chen, Jingbo Wang, Jinpeng Liu, Bo Dai, Yansong Tang, (参考訳) この研究は、制御可能なモーション生成をリアルタイムレベルに拡張するMotionLCMを導入している。 テキスト条件付き動作生成における空間制御の既存の方法は、実行時不効率に悩まされる。 この問題に対処するために、我々はまず、動き生成のための動き潜時一貫性モデル(MotionLCM)を提案し、遅延拡散モデル(MLD)に基づいて構築する。 一段階(もしくは数段階)の推論を用いることで、動作生成のための動き潜伏拡散モデルの実行効率をさらに向上する。 効率的な制御性を確保するため,モーションLCMの潜在空間内にモーションコントロールネットを組み込み,バニラ運動空間における明示的な制御信号(例えば骨盤軌道)を有効化して生成過程を直接制御する。 これらの手法を用いることで,テキストによる人間の動きをリアルタイムで生成し,制御信号をリアルタイムに生成する。 実時間実行効率を維持しながら,MotionLCMの顕著な生成と制御能力を示す実験結果を得た。

This work introduces MotionLCM, extending controllable motion generation to a real-time level. Existing methods for spatial control in text-conditioned motion generation suffer from significant runtime inefficiency. To address this issue, we first propose the motion latent consistency model (MotionLCM) for motion generation, building upon the latent diffusion model (MLD). By employing one-step (or few-step) inference, we further improve the runtime efficiency of the motion latent diffusion model for motion generation. To ensure effective controllability, we incorporate a motion ControlNet within the latent space of MotionLCM and enable explicit control signals (e.g., pelvis trajectory) in the vanilla motion space to control the generation process directly, similar to controlling other latent-free diffusion models for motion generation. By employing these techniques, our approach can generate human motions with text and control signals in real-time. Experimental results demonstrate the remarkable generation and controlling capabilities of MotionLCM while maintaining real-time runtime efficiency.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# Lightplane: ニューラル3Dフィールドのための高スケーラビリティコンポーネント

Lightplane: Highly-Scalable Components for Neural 3D Fields ( http://arxiv.org/abs/2404.19760v1 )

ライセンス: Link先を確認
Ang Cao, Justin Johnson, Andrea Vedaldi, David Novotny, (参考訳) 現代の3D研究は、特に再建と生成において、入力や監督のために2D画像に大きく依存している。 しかし、これらの2D-3Dマッピングの現在の設計はメモリ集約的であり、既存の手法のボトルネックとなり、新しいアプリケーションを妨げている。 そこで本研究では,2次元3次元マッピングにおけるメモリ使用量を大幅に削減するLightplane RenderとSplatterの2つの高スケーラブルな3次元ニューラルネットワークコンポーネントを提案する。 これらのイノベーションは、メモリと計算コストの少ない、はるかに高解像度で高解像度の画像の処理を可能にする。 画像レベルの損失による単一シーン最適化の恩恵から,3次元再構成と生成を劇的に拡張する汎用的なパイプラインの実現に至るまで,さまざまなアプリケーションでその実用性を実証する。 コード: \url{https://github.com/facebookresearch/lightplane}。

Contemporary 3D research, particularly in reconstruction and generation, heavily relies on 2D images for inputs or supervision. However, current designs for these 2D-3D mapping are memory-intensive, posing a significant bottleneck for existing methods and hindering new applications. In response, we propose a pair of highly scalable components for 3D neural fields: Lightplane Render and Splatter, which significantly reduce memory usage in 2D-3D mapping. These innovations enable the processing of vastly more and higher resolution images with small memory and computational costs. We demonstrate their utility in various applications, from benefiting single-scene optimization with image-level losses to realizing a versatile pipeline for dramatically scaling 3D reconstruction and generation. Code: \url{https://github.com/facebookresearch/lightplane}.
翻訳日:2024-05-01 13:16:41 公開日:2024-04-30
# 拡張コード表現によるグラフニューラルネットワークによる障害位置推定の改善に向けて

Towards Better Graph Neural Network-based Fault Localization Through Enhanced Code Representation ( http://arxiv.org/abs/2404.04496v5 )

ライセンス: Link先を確認
Md Nakhla Rafi, Dong Jae Kim, An Ran Chen, Tse-Hsun Chen, Shaowei Wang, (参考訳) 自動ソフトウェアフォールトローカライゼーションは、デバッグを容易にするために故障箇所をピンポイントすることで、ソフトウェア品質保証において重要な役割を果たす。 広く使われている手法であるカバレッジベースのフォールトローカライゼーションでは、被疑点スコアに基づいたコードランク付けにカバレッジスペクトルの統計を用いる。 しかし、統計的アプローチの剛性は、学習に基づく技術を要求する。 中でもグラフニューラルネットワーク(GNN)に基づくグラフニューラルネットワーク(Grace)は,特徴表現を圧縮する他の学習手法の制限を緩和する,厳密な抽象構文強化グラフ表現として,テストとソースのカバレッジ関係を保存する能力によって,最先端技術を実現している。 しかし、そのような表現は、ソフトウェアと関連するカバレッジスペクトルとASTグラフの複雑さの増大によりスケーラビリティに苦慮している。 本研究では,ノードやエッジにおけるグラフ表現の複雑さを70%削減する新しいグラフ表現であるDepGraphを提案する。 さらに,属性としてグラフ内のコード変更情報などの付加的機能を統合し,そのモデルが豊富な歴史的プロジェクトデータを活用できるようにする。 Defects4j 2.0.0を用いてDepGraphを評価し,Top-1における20%以上の障害の所在と平均一位と平均平均ランク(MAR)を50%以上改善し,GPUメモリ使用率を44%削減し,トレーニング/推論時間を85%向上させた。 さらに、クロスプロジェクト環境では、DepGraphは最先端のベースラインを超え、Top-1の精度が42%、MFRとMARが68%、MARが65%向上している。 我々の研究は、DepGraphの堅牢性、最先端の精度、将来の拡張と採用のためのスケーラビリティを実証する。

Automatic software fault localization plays an important role in software quality assurance by pinpointing faulty locations for easier debugging. Coverage-based fault localization, a widely used technique, employs statistics on coverage spectra to rank code based on suspiciousness scores. However, the rigidity of statistical approaches calls for learning-based techniques. Amongst all, Grace, a graph-neural network (GNN) based technique has achieved state-of-the-art due to its capacity to preserve coverage spectra, i.e., test-to-source coverage relationships, as precise abstract syntax-enhanced graph representation, mitigating the limitation of other learning-based technique which compresses the feature representation. However, such representation struggles with scalability due to the increasing complexity of software and associated coverage spectra and AST graphs. In this work, we proposed a new graph representation, DepGraph, that reduces the complexity of the graph representation by 70% in nodes and edges by integrating interprocedural call graph in the graph representation of the code. Moreover, we integrate additional features such as code change information in the graph as attributes so the model can leverage rich historical project data. We evaluate DepGraph using Defects4j 2.0.0, and it outperforms Grace by locating 20% more faults in Top-1 and improving the Mean First Rank (MFR) and the Mean Average Rank (MAR) by over 50% while decreasing GPU memory usage by 44% and training/inference time by 85%. Additionally, in cross-project settings, DepGraph surpasses the state-of-the-art baseline with a 42% higher Top-1 accuracy, and 68% and 65% improvement in MFR and MAR, respectively. Our study demonstrates DepGraph's robustness, achieving state-of-the-art accuracy and scalability for future extension and adoption.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# GFlowNetsにおける動的バックトラッキング:逆依存性調整機構による決定ステップの強化

Dynamic Backtracking in GFlowNets: Enhancing Decision Steps with Reward-Dependent Adjustment Mechanisms ( http://arxiv.org/abs/2404.05576v4 )

ライセンス: Link先を確認
Shuai Guo, Jielei Chu, Lei Zhu, Zhaoyu Li, Tianrui Li, (参考訳) 生成フローネットワーク(GFlowNets、GFNs)はマルコフフローを前提とした確率論的モデルであり、生体分子や化学材料などの構成物質を生成する確率論的ポリシーを学ぶために特定のアモーティゼーションアルゴリズムを使用している。 高性能な生化学分子を生成できる強力な能力により、GFNは科学物質の発見を加速し、従来の物質発見手法の時間的、労働集約的、コスト的な欠点を効果的に克服する。 しかし、以前の研究では、複雑なサンプリング空間における配向を誘導する生成構造を調整することにより、探索経験を蓄積することに集中することはめったにない。 LS-GFNのようなこの問題に対処する努力は、局所的な欲求検索に限られており、より広範なグローバルな調整が欠如している。 本稿では、報酬に基づく動的バックトラッキング機構により、意思決定ステップの適応性を向上させるGFN(Dynamic Backtracking GFN)を新たに導入する。 DB-GFNは、現在の状態の報酬値に従ってネットワーク構築プロセス中のバックトラックを可能にし、不利な決定を訂正し、探索プロセス中に代替経路を探索する。 生化学分子や遺伝物質配列を含む生成タスクに適用すると、DB-GFNは、LS-GFNやGTBなどのGFNモデルや、従来の強化学習法、サンプル品質、サンプル探索量、トレーニング収束速度に優れる。 さらに、その直交性から、DB-GFNは今後のGFNの改良に大きな可能性を示し、検索性能を高めるために他の戦略と統合することができる。

Generative Flow Networks (GFlowNets or GFNs) are probabilistic models predicated on Markov flows, and they employ specific amortization algorithms to learn stochastic policies that generate compositional substances including biomolecules, chemical materials, etc. With a strong ability to generate high-performance biochemical molecules, GFNs accelerate the discovery of scientific substances, effectively overcoming the time-consuming, labor-intensive, and costly shortcomings of conventional material discovery methods. However, previous studies rarely focus on accumulating exploratory experience by adjusting generative structures, which leads to disorientation in complex sampling spaces. Efforts to address this issue, such as LS-GFN, are limited to local greedy searches and lack broader global adjustments. This paper introduces a novel variant of GFNs, the Dynamic Backtracking GFN (DB-GFN), which improves the adaptability of decision-making steps through a reward-based dynamic backtracking mechanism. DB-GFN allows backtracking during the network construction process according to the current state's reward value, thereby correcting disadvantageous decisions and exploring alternative pathways during the exploration process. When applied to generative tasks involving biochemical molecules and genetic material sequences, DB-GFN outperforms GFN models such as LS-GFN and GTB, as well as traditional reinforcement learning methods, in sample quality, sample exploration quantity, and training convergence speed. Additionally, owing to its orthogonal nature, DB-GFN shows great potential in future improvements of GFNs, and it can be integrated with other strategies to achieve higher search performance.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# 既知のクラスタを超えて - 効率的な一般化されたクラスディスカバリのための新しいプロトタイプ

Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery ( http://arxiv.org/abs/2404.08995v4 )

ライセンス: Link先を確認
Ye Wang, Yaxiong Wang, Yujiao Wu, Bingchen Zhao, Xueming Qian, (参考訳) Generalized Class Discovery (GCD) は、ラベル付きデータから学んだ知識に基づいてラベルを部分的にラベル付きデータに動的に割り当てることを目的としている。 一般的なアプローチは、すべてのデータと学習概念を、原型的な対照的な学習によってクラスタリングすることである。 しかし、既存の手法はクラスタリングアルゴリズムの性能に大きく影響し、そのため固有の制限が課せられる。 第一に、推定されたクラスタ数は、しばしば基礎的な真実よりも小さく、既存の手法は包括的な概念学習のためのプロトタイプの欠如に悩まされる。 この問題に対処するために,学習可能な潜在的なプロトタイプを導入し,クラスタプロトタイプ(中央)を拡張する適応型探索機構を提案する。 本研究は,プロトタイプをエンド・ツー・エンドで最適化する自己教師型プロトタイプ学習フレームワークを開発した。 第二に、クラスタリングは計算集約的であり、ラベル付きインスタンスと非ラベル付きインスタンスの両方をクラスタリングするという従来の戦略は、この問題を悪化させる。 この非効率性に対抗するために、私たちは、未実装のインスタンスのみをクラスタ化し、その後、新しいクラスを素早く探索するために、導入可能なプロトタイプでクラスタのプロトタイプを拡張することを選択しました。 提案手法の単純さにもかかわらず、広範囲のデータセットに対する広範な実験分析により、我々の手法が常に最先端の結果を提供することを確認した。 具体的には、Stanford Carsデータセットで9.7%、Herbarium 19データセットで12倍のクラスタリング効率で、最も近い競合相手を上回っています。 コードとチェックポイントはhttps://github.com/xjtuYW/PNP.git.comで公開します。

Generalized Class Discovery (GCD) aims to dynamically assign labels to unlabelled data partially based on knowledge learned from labelled data, where the unlabelled data may come from known or novel classes. The prevailing approach generally involves clustering across all data and learning conceptions by prototypical contrastive learning. However, existing methods largely hinge on the performance of clustering algorithms and are thus subject to their inherent limitations. Firstly, the estimated cluster number is often smaller than the ground truth, making the existing methods suffer from the lack of prototypes for comprehensive conception learning. To address this issue, we propose an adaptive probing mechanism that introduces learnable potential prototypes to expand cluster prototypes (centers). As there is no ground truth for the potential prototype, we develop a self-supervised prototype learning framework to optimize the potential prototype in an end-to-end fashion. Secondly, clustering is computationally intensive, and the conventional strategy of clustering both labelled and unlabelled instances exacerbates this issue. To counteract this inefficiency, we opt to cluster only the unlabelled instances and subsequently expand the cluster prototypes with our introduced potential prototypes to fast explore novel classes. Despite the simplicity of our proposed method, extensive empirical analysis on a wide range of datasets confirms that our method consistently delivers state-of-the-art results. Specifically, our method surpasses the nearest competitor by a significant margin of 9.7% within the Stanford Cars dataset and 12x clustering efficiency within the Herbarium 19 dataset. We will make the code and checkpoints publicly available at https://github.com/xjtuYW/PNP.git.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# シナリオ適応型微粒化パーソナライズネットワーク:シナリオコンテキストへのユーザ行動表現の調整

Scenario-Adaptive Fine-Grained Personalization Network: Tailoring User Behavior Representation to the Scenario Context ( http://arxiv.org/abs/2404.09709v3 )

ライセンス: Link先を確認
Moyu Zhang, Yongxiang Tang, Jinxin Hu, Yu Zhang, (参考訳) 既存の方法は、ユーザ行動シーケンスを集約した後のみ、適応的に表現を調整することが多い。 ユーザシーケンス全体を再重み付けするこの粗いアプローチは、さまざまなシナリオにわたるユーザ関心のマイグレーションを正確にモデル化するモデルの能力を損なう。 シナリオごとの履歴行動系列からユーザの興味を捉える能力を高めるため,シナリオ適応ファイングラインドパーソナライゼーションネットワーク (SFPNet) と呼ばれるランキングフレームワークを開発し,マルチシナリオパーソナライズされたレコメンデーションのための,ある種のきめ細かい手法を設計する。 具体的には、SFPNetはScenario-Tailoring Blockという名前の一連のブロックを順次積み重ねて構成する。 各ブロックは、まずパラメータパーソナライズユニットをデプロイし、基本的な特徴を再定義することで、粗い粒度レベルでシナリオ情報を統合する。 その後、シナリオ適応型特徴表現を統合化し、コンテキスト情報として機能させる。 残余接続を用いることで、このコンテキストを各履歴行動の表現に組み込むことで、シナリオレベルでの振る舞い表現のきめ細かいカスタマイズを可能にし、シナリオ対応のユーザ関心モデリングをサポートする。

Existing methods often adjust representations adaptively only after aggregating user behavior sequences. This coarse-grained approach to re-weighting the entire user sequence hampers the model's ability to accurately model the user interest migration across different scenarios. To enhance the model's capacity to capture user interests from historical behavior sequences in each scenario, we develop a ranking framework named the Scenario-Adaptive Fine-Grained Personalization Network (SFPNet), which designs a kind of fine-grained method for multi-scenario personalized recommendations. Specifically, SFPNet comprises a series of blocks named as Scenario-Tailoring Block, stacked sequentially. Each block initially deploys a parameter personalization unit to integrate scenario information at a coarse-grained level by redefining fundamental features. Subsequently, we consolidate scenario-adaptively adjusted feature representations to serve as context information. By employing residual connection, we incorporate this context into the representation of each historical behavior, allowing for context-aware fine-grained customization of the behavior representations at the scenario-level, which in turn supports scenario-aware user interest modeling.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# Gated Sparse Autoencodersによる辞書学習の改善

Improving Dictionary Learning with Gated Sparse Autoencoders ( http://arxiv.org/abs/2404.16014v2 )

ライセンス: Link先を確認
Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Tom Lieberum, Vikrant Varma, János Kramár, Rohin Shah, Neel Nanda, (参考訳) 最近の研究で、スパースオートエンコーダ(SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴の教師なし発見に有効な手法であることがわかった。 Gated Sparse Autoencoder (Gated SAE) を導入する。 SAEでは、スパーシリティを促進するために使われるL1ペナルティは、縮小など多くの望ましくないバイアスをもたらす。 Gated SAEの重要な洞察は、機能の分離である。 a) どの方向を使うか、または使うかを決定すること b) これらの方向の大きさを推定することにより、L1ペナルティを前者のみに適用することができ、望ましくない副作用の範囲を制限することができる。 最大7BパラメータのLM上でのSAEのトレーニングにより、通常の超パラメータ範囲では、Gated SAEは収縮を解消し、同様に解釈可能であり、同等の再現忠実性を達成するのに半分の発射特性を必要とすることがわかった。

Recent work has found that sparse autoencoders (SAEs) are an effective technique for unsupervised discovery of interpretable features in language models' (LMs) activations, by finding sparse, linear reconstructions of LM activations. We introduce the Gated Sparse Autoencoder (Gated SAE), which achieves a Pareto improvement over training with prevailing methods. In SAEs, the L1 penalty used to encourage sparsity introduces many undesirable biases, such as shrinkage -- systematic underestimation of feature activations. The key insight of Gated SAEs is to separate the functionality of (a) determining which directions to use and (b) estimating the magnitudes of those directions: this enables us to apply the L1 penalty only to the former, limiting the scope of undesirable side effects. Through training SAEs on LMs of up to 7B parameters we find that, in typical hyper-parameter ranges, Gated SAEs solve shrinkage, are similarly interpretable, and require half as many firing features to achieve comparable reconstruction fidelity.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# クラス定義と特徴相関に基づく拡張によるタブラルデータコントラスト学習

Tabular Data Contrastive Learning via Class-Conditioned and Feature-Correlation Based Augmentation ( http://arxiv.org/abs/2404.17489v2 )

ライセンス: Link先を確認
Wei Cui, Rasa Hosseinzadeh, Junwei Ma, Tongzi Wu, Yi Sui, Keyvan Golestan, (参考訳) コントラスト学習(Contrastive Learning)は、最初に元のデータの類似したビューを作成し、次にデータとその対応するビューを埋め込み空間に近接させるモデル事前学習技術である。 対照的な学習は、直感的で効果的なドメイン固有の拡張技術のおかげで、画像と自然言語のデータで成功している。 それにもかかわらず、表領域では、ビューを作成するための主要な拡張テクニックは、値のスワップによって表領域のエントリを破損させることである。 本稿では,この拡張手法の簡易かつ強力な改善法を提案する。 具体的には、テーブル全体から同じ特徴列の値をランダムにサンプリングする代わりに、アンカー行から特定の表のエントリを破損させる場合、アンカー行と同じクラスに属すると認識される行からのみサンプリングする。 半教師付き学習環境を仮定し,すべてのテーブル列上のクラスIDを取得するための擬似ラベル手法を採用する。 また,特徴相関構造に基づく特徴選択の新たな考え方についても検討する。 大規模な実験により,提案手法は従来の表型データ分類タスクの汚職手法よりも一貫して優れていた。 私たちのコードはhttps://github.com/willtop/Tabular-Class-Conditioned-SSLで利用可能です。

Contrastive learning is a model pre-training technique by first creating similar views of the original data, and then encouraging the data and its corresponding views to be close in the embedding space. Contrastive learning has witnessed success in image and natural language data, thanks to the domain-specific augmentation techniques that are both intuitive and effective. Nonetheless, in tabular domain, the predominant augmentation technique for creating views is through corrupting tabular entries via swapping values, which is not as sound or effective. We propose a simple yet powerful improvement to this augmentation technique: corrupting tabular data conditioned on class identity. Specifically, when corrupting a specific tabular entry from an anchor row, instead of randomly sampling a value in the same feature column from the entire table uniformly, we only sample from rows that are identified to be within the same class as the anchor row. We assume the semi-supervised learning setting, and adopt the pseudo labeling technique for obtaining class identities over all table rows. We also explore the novel idea of selecting features to be corrupted based on feature correlation structures. Extensive experiments show that the proposed approach consistently outperforms the conventional corruption method for tabular data classification tasks. Our code is available at https://github.com/willtop/Tabular-Class-Conditioned-SSL.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# DVS画素におけるダイム光応答のキャラクタリゼーション:イベントトリガー時間の不連続性

Characterization of dim light response in DVS pixel: Discontinuity of event triggering time ( http://arxiv.org/abs/2404.17771v2 )

ライセンス: Link先を確認
Xiao Jiang, Fei Zhou, (参考訳) ダイナミックビジョンセンサ(DVS)は、従来のフレームベースカメラと比較して、広いダイナミックレンジと低レイテンシの利点から、近年大きな関心を集めている。 しかし、薄暗い光条件下での複雑な挙動はまだ明らかではなく、DVSの適用を制限している。 本稿では、典型的なDVS回路を解析し、イベントトリガー時間の不連続が存在することを明らかにする。 薄暗い光条件下では、不連続が顕著になる。 この不連続性は光強度の変化速度にのみ依存していると指摘する。 実事象データによる実験結果は、薄暗い光条件下でのDVSの非一階挙動を明らかにする不連続性の解析と存在を検証した。

Dynamic Vision Sensors (DVS) have recently generated great interest because of the advantages of wide dynamic range and low latency compared with conventional frame-based cameras. However, the complicated behaviors in dim light conditions are still not clear, restricting the applications of DVS. In this paper, we analyze the typical DVS circuit, and find that there exists discontinuity of event triggering time. In dim light conditions, the discontinuity becomes prominent. We point out that the discontinuity depends exclusively on the changing speed of light intensity. Experimental results on real event data validate the analysis and the existence of discontinuity that reveals the non-first-order behaviors of DVS in dim light conditions.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# ガウスサーフェスを用いた高品質表面再構成

High-quality Surface Reconstruction using Gaussian Surfels ( http://arxiv.org/abs/2404.17774v2 )

ライセンス: Link先を確認
Pinxuan Dai, Jiamin Xu, Wenxiang Xie, Xinguo Liu, Huamin Wang, Weiwei Xu, (参考訳) 本稿では,3次元ガウス点におけるフレキシブルな最適化手法の利点とサーベイルの表面アライメント特性を組み合わせるために,新しい点ベース表現であるガウス的サーベイルを提案する。 これは、3Dガウス点のzスケールを直接0に設定し、元の3D楕円体を2D楕円形に効果的に平らにする。 このような設計は、オプティマイザへの明確なガイダンスを提供する。 局所的なz軸を通常の方向として扱うことにより、最適化安定性と表面アライメントを大幅に改善する。 共分散行列から計算した局所z軸への微分はこの設定ではゼロであるが、この問題を改善するために自己教師付き正規深度整合損失を設計する。 単眼の通常のマスクと前景マスクが組み込まれ、再建の質を高め、ハイライトや背景にまつわる問題を緩和する。 アルファブレンディングにより生成された深度マップの誤り点を除去するために,ガウス波の情報を集約する体積切断法を提案する。 最後に,融解深度マップにスクリーニングされたポアソン再構成法を適用し,表面メッシュを抽出する。 実験により,本手法は,最先端のニューラルボリュームレンダリングやポイントベースレンダリングと比較して,表面再構成における優れた性能を示すことが示された。

We propose a novel point-based representation, Gaussian surfels, to combine the advantages of the flexible optimization procedure in 3D Gaussian points and the surface alignment property of surfels. This is achieved by directly setting the z-scale of 3D Gaussian points to 0, effectively flattening the original 3D ellipsoid into a 2D ellipse. Such a design provides clear guidance to the optimizer. By treating the local z-axis as the normal direction, it greatly improves optimization stability and surface alignment. While the derivatives to the local z-axis computed from the covariance matrix are zero in this setting, we design a self-supervised normal-depth consistency loss to remedy this issue. Monocular normal priors and foreground masks are incorporated to enhance the quality of the reconstruction, mitigating issues related to highlights and background. We propose a volumetric cutting method to aggregate the information of Gaussian surfels so as to remove erroneous points in depth maps generated by alpha blending. Finally, we apply screened Poisson reconstruction method to the fused depth maps to extract the surface mesh. Experimental results show that our method demonstrates superior performance in surface reconstruction compared to state-of-the-art neural volume rendering and point-based rendering methods.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# 表面音波による極性分子の捕捉

Trapping polar molecules by surface acoustic waves ( http://arxiv.org/abs/2404.17879v2 )

ライセンス: Link先を確認
Haijin Ding, Re-Bing Wu, Yu-xi Liu, (参考訳) 圧電材料の表面音響波(SAW)によって誘導される電気力で極性分子を捕捉する手法を提案する。 このアプローチでは、電気力は極性分子の運動方向と垂直であり、音響伝達と直交する方向における閉じ込められた極性分子の位置を制御するために用いられる。 外部の電気力により、SAWによって誘導される電場は極性分子を単層または多層格子にトラップすることができる。 分子の配列は分子配列の結合エネルギーと局在に影響を与える。 すると、1次元または2次元の極性分子アレイを用いてボース・ハッバード(BH)モデルを構築することができ、そのエネルギーと動力学は捕捉された分子の局在に影響される。 極性分子BHモデルに基づく超流動絶縁体とモット絶縁体の相転移は,SAW誘起電位によって変調できることがわかった。

We propose a method to trap polar molecules with the electrical force induced by the surface acoustic wave (SAW) on piezoelectric materials. In this approach, the electrical force is perpendicular to the moving direction of the polar molecules, and is used to control the positions of trapped polar molecules in the direction orthogonal to the acoustic transmission. By virtue of an external electrical force, the SAW-induced electrical field can trap the polar molecules into single-layer or multi-layer lattices. The arrangement of molecules can affect the binding energy and localization of the molecule array. Then the one- or two-dimensional trapped polar molecule arrays can be used to construct the Bose-Hubbard (BH) model, whose energy and dynamics are affected by the localizations of the trapped molecules. We find that the phase transitions between the superfluid and Mott insulator based on trapped polar molecule BH model can be modulated by the SAW induced electrical potential.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# I have antention Bridge to Sell You: Generalization Capability of Modular Translation Architectures

I Have an Attention Bridge to Sell You: Generalization Capabilities of Modular Translation Architectures ( http://arxiv.org/abs/2404.17918v2 )

ライセンス: Link先を確認
Timothee Mickus, Raúl Vázquez, Joseph Attieh, (参考訳) モジュラリティ(Modularity)は機械翻訳のパラダイムであり、トレーニング時に大きく、推論時に小さくなるモデルを生み出す可能性を秘めている。 この研究分野において、モジュラーアプローチ、特に注意ブリッジは、言語に依存しない表現を育むことによってモデルの一般化能力を改善するために議論されてきた。 本稿では,モジュール性が翻訳品質にどのような影響を及ぼすか,また,モジュールアーキテクチャが様々な評価シナリオにまたがってどのように一般化されるかを検討する。 与えられた計算予算に対して、非モジュラーアーキテクチャは、我々が研究しているすべてのモジュラー設計と常に同等か好適である。

Modularity is a paradigm of machine translation with the potential of bringing forth models that are large at training time and small during inference. Within this field of study, modular approaches, and in particular attention bridges, have been argued to improve the generalization capabilities of models by fostering language-independent representations. In the present paper, we study whether modularity affects translation quality; as well as how well modular architectures generalize across different evaluation scenarios. For a given computational budget, we find non-modular architectures to be always comparable or preferable to all modular designs we study.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# 政策勾配の制御ランダム化手法と最適切替における強化学習への応用

Control randomisation approach for policy gradient and application to reinforcement learning in optimal switching ( http://arxiv.org/abs/2404.17939v2 )

ライセンス: Link先を確認
Robert Denkert, Huyên Pham, Xavier Warin, (参考訳) 本稿では,連続時間強化学習に適した政策勾配法に関する総合的な枠組みを提案する。 これは確率的制御問題とランダム化問題との接続に基づいており、例えば正規性、インパルス、最適停止/スイッチング問題を含む拡散モデルを超えて、マルコフ的連続時間制御問題の様々なクラスにまたがるアプリケーションを可能にする。 制御ランダム化手法における測度の変化を利用して、これらのランダム化問題に対する新しいポリシー勾配表現を導出し、パラメトリド強度ポリシーを特徴とする。 さらに,一般的なマルコフ確率制御問題に対処するために,アクタ批判アルゴリズムを開発した。 この枠組みは, 実オプションに着目したエネルギーセクターにおける2つの数値ケーススタディを用いて, 最適スイッチング問題への適用を通じて実証された。

We propose a comprehensive framework for policy gradient methods tailored to continuous time reinforcement learning. This is based on the connection between stochastic control problems and randomised problems, enabling applications across various classes of Markovian continuous time control problems, beyond diffusion models, including e.g. regular, impulse and optimal stopping/switching problems. By utilizing change of measure in the control randomisation technique, we derive a new policy gradient representation for these randomised problems, featuring parametrised intensity policies. We further develop actor-critic algorithms specifically designed to address general Markovian stochastic control issues. Our framework is demonstrated through its application to optimal switching problems, with two numerical case studies in the energy sector focusing on real options.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-30
# ComposerX: LLMを用いたマルチエージェントシンボリックミュージックコンポジション

ComposerX: Multi-Agent Symbolic Music Composition with LLMs ( http://arxiv.org/abs/2404.18081v2 )

ライセンス: Link先を確認
Qixin Deng, Qikai Yang, Ruibin Yuan, Yipeng Huang, Yi Wang, Xubo Liu, Zeyue Tian, Jiahao Pan, Ge Zhang, Hanfeng Lin, Yizhi Li, Yinghao Ma, Jie Fu, Chenghua Lin, Emmanouil Benetos, Wenwu Wang, Guangyu Xia, Wei Xue, Yike Guo, (参考訳) 音楽構成は人類の創造的な側面を表しており、それ自体は長い依存と調和の制約のある情報を理解し、生成する能力を必要とする複雑なタスクである。 STEMの被験者に印象的な能力を示す一方で、現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンなテクニックを装着しても、書きにくい音楽を生成する。 音楽史・理論の推論能力と知識基盤を活かして、LLMの楽曲における可能性をさらに探求し、強化するために、エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。 マルチエージェントアプローチを適用することで,GPT-4の作曲品質が大幅に向上することがわかった。 以上の結果から,ComposerXはユーザ指示に固執しながら,メロディーを捕捉したコヒーレントなポリフォニック音楽の作曲が可能であることが示唆された。

Music composition represents the creative side of humanity, and itself is a complex task that requires abilities to understand and generate information with long dependency and harmony constraints. While demonstrating impressive capabilities in STEM subjects, current LLMs easily fail in this task, generating ill-written music even when equipped with modern techniques like In-Context-Learning and Chain-of-Thoughts. To further explore and enhance LLMs' potential in music composition by leveraging their reasoning ability and the large knowledge base in music history and theory, we propose ComposerX, an agent-based symbolic music generation framework. We find that applying a multi-agent approach significantly improves the music composition quality of GPT-4. The results demonstrate that ComposerX is capable of producing coherent polyphonic music compositions with captivating melodies, while adhering to user instructions.
翻訳日:2024-05-01 12:57:02 公開日:2024-04-30
# 機械学習モデルを用いた加速度計データからのふくらはぎ行動分類のためのROCKETとCatch22の特徴評価

Evaluating ROCKET and Catch22 features for calf behaviour classification from accelerometer data using Machine Learning models ( http://arxiv.org/abs/2404.18159v2 )

ライセンス: Link先を確認
Oshana Dissanayake, Sarah E. McPherson, Joseph Allyndree, Emer Kennedy, Padraig Cunningham, Lucile Riaboff, (参考訳) 子牛の行動を継続的にモニタリングすることは、乳牛の養殖に影響を及ぼす日常的な習慣(例えば、雑草、くちばしなど)を特定する上で有益である。 その点において、首首首から収集した加速度計データと機械学習モデルを使用して、自動的にふくらはぎの振る舞いを分類することができる。 手作りの機能は機械学習モデルで一般的に使用されるが、ROCKETとCatch22の機能は関連分野の時系列分類問題に特化して設計されている。 本研究の目的は,ROCKETとCatch22の機能とハンドクラフト機能の比較である。 アイルランドのホルスタイン・フリーシアンとジャージーの30頭が加速度センサで監視され、27.4時間の注釈付き行動が可能となった。 生のX、Y、Z軸から追加の時系列を計算し、3秒の時間ウィンドウに分割した。 ROCKET、Catch22、Hand-Craftedの機能はタイムウィンドウ毎に計算され、データセットは列車、検証、テストセットに分割された。 それぞれの機能セットは、3つの機械学習モデル(Random Forest、eXtreme Gradient Boosting、RideClassifierCV)をトレーニングするために使われました。 モデルが検証セットで調整され,各特徴モデルの組み合わせの性能がテストセットで評価された。 ROCKET (平均平衡精度+/-標準偏差) (0.70 +/-0.07)、Catch22 (0.69 +/-0.05) がハンドクラフト (0.65 +/-0.034) を上回った。 最もバランスの取れた精度 (0.77) はROCKET と Ridge ClassifierCV で得られ、次に Catch22 と Random Forest (0.73) が続いた。 したがって、これらのアプローチを特定の行動や状況に合わせることは、畜産の精密化と動物福祉の大規模化に不可欠である。

Monitoring calf behaviour continuously would be beneficial to identify routine practices (e.g., weaning, dehorning, etc.) that impact calf welfare in dairy farms. In that regard, accelerometer data collected from neck collars can be used along with Machine Learning models to classify calf behaviour automatically. Hand-crafted features are commonly used in Machine Learning models, while ROCKET and Catch22 features are specifically designed for time-series classification problems in related fields. This study aims to compare the performance of ROCKET and Catch22 features to Hand-Crafted features. 30 Irish Holstein Friesian and Jersey pre-weaned calves were monitored using accelerometer sensors allowing for 27.4 hours of annotated behaviors. Additional time-series were computed from the raw X, Y and Z-axis and split into 3-second time windows. ROCKET, Catch22 and Hand-Crafted features were calculated for each time window, and the dataset was then split into the train, validation and test sets. Each set of features was used to train three Machine Learning models (Random Forest, eXtreme Gradient Boosting, and RidgeClassifierCV) to classify six behaviours indicative of pre-weaned calf welfare (drinking milk, grooming, lying, running, walking and other). Models were tuned with the validation set, and the performance of each feature-model combination was evaluated with the test set. The best performance across the three models was obtained with ROCKET [average balanced accuracy +/- standard deviation] (0.70 +/- 0.07), followed by Catch22 (0.69 +/- 0.05), surpassing Hand-Crafted (0.65 +/- 0.034). The best balanced accuracy (0.77) was obtained with ROCKET and RidgeClassifierCV, followed by Catch22 and Random Forest (0.73). Thus, tailoring these approaches for specific behaviours and contexts will be crucial in advancing precision livestock farming and enhancing animal welfare on a larger scale.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# PatentGPT:知的財産のための大規模言語モデル

PatentGPT: A Large Language Model for Intellectual Property ( http://arxiv.org/abs/2404.18255v2 )

ライセンス: Link先を確認
Zilong Bai, Ruiji Zhang, Linqing Chen, Qijun Cai, Yuan Zhong, Cong Wang, Yan Fang, Jie Fang, Jing Sun, Weikuan Wang, Lizhi Zhou, Haoran Hua, Tian Qiu, Chaochao Wang, Cheng Sun, Jianping Lu, Yixin Wang, Yubin Xia, Meng Hu, Haowen Liu, Peng Xu, Licong Xu, Fu Bian, Xiaolong Gu, Lisha Zhang, Weilei Wang, Changyang Tu, (参考訳) 近年,多数の自然言語処理タスクにまたがる例外的な性能により,大規模言語モデルが注目され,様々な分野に広く応用されている。 しかし、知的財産権(IP)分野における大規模言語モデルの応用は、専門知識、プライバシー保護、この分野における極端に長いテキストの処理の必要性が強いため、困難である。 本技術報告では,IP ドメインのユニークな要件を満たす,IP 指向 LLM をトレーニングするための,低コストで標準化された手順を初めて提示する。 この標準プロセスを用いて,オープンソース事前学習モデルに基づく特許GPTシリーズモデルを訓練した。 オープンソースのIP指向ベンチマークMOZIPで評価することにより、ドメイン固有のLCMはGPT-4よりも優れており、提案したトレーニング手順の有効性とIP領域における特許GPTモデルの専門性を示している。 驚くべきことに、2019年の中国特許代理人資格試験において、我々のモデルは、65のスコアを獲得し、人間の専門家のレベルに達したことで、GPT-4を著しく上回った。 さらに、SMoE アーキテクチャを利用する PatentGPT モデルは、IP ドメインの GPT-4 に匹敵する性能を達成し、IP ドメイン内の GPT-4 の代替として機能し、長文タスクのコストパフォーマンスを向上する。

In recent years, large language models have attracted significant attention due to their exceptional performance across a multitude of natural language process tasks, and have been widely applied in various fields. However, the application of large language models in the Intellectual Property (IP) space is challenging due to the strong need for specialized knowledge, privacy protection, processing of extremely long text in this field. In this technical report, we present for the first time a low-cost, standardized procedure for training IP-oriented LLMs, meeting the unique requirements of the IP domain. Using this standard process, we have trained the PatentGPT series models based on open-source pretrained models. By evaluating them on the open-source IP-oriented benchmark MOZIP, our domain-specific LLMs outperforms GPT-4, indicating the effectiveness of the proposed training procedure and the expertise of the PatentGPT models in the IP demain. What is impressive is that our model significantly outperformed GPT-4 on the 2019 China Patent Agent Qualification Examination by achieving a score of 65, reaching the level of human experts. Additionally, the PatentGPT model, which utilizes the SMoE architecture, achieves performance comparable to that of GPT-4 in the IP domain and demonstrates a better cost-performance ratio on long-text tasks, potentially serving as an alternative to GPT-4 within the IP domain.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# ブラジル語および低リソース言語におけるLLMプロンプトと言語間移動性能の比較

Comparing LLM prompting with Cross-lingual transfer performance on Indigenous and Low-resource Brazilian Languages ( http://arxiv.org/abs/2404.18286v2 )

ライセンス: Link先を確認
David Ifeoluwa Adelani, A. Seza Doğruöz, André Coneglian, Atul Kr. Ojha, (参考訳) 大規模言語モデルは様々なタスクのためにNLPを変換しています。 しかし、LLMが低リソース言語(LRL)に対してどのようにNLPタスクを実行するかは明らかになっていない。 AmericasNLPワークショップの目標に合わせて、ブラジルから12のLRL、アフリカから2のLRL、高リソース言語(HRL)2つ(例:英語とブラジルポルトガル語)に焦点を当てます。 以上の結果から,LLM は HRL と比較して LRL の音声(POS) ラベル付けに悪影響を及ぼすことが示唆された。 この失敗の背景にある理由を説明し、データセットで観測された例を通してエラー解析を行う。

Large Language Models are transforming NLP for a variety of tasks. However, how LLMs perform NLP tasks for low-resource languages (LRLs) is less explored. In line with the goals of the AmericasNLP workshop, we focus on 12 LRLs from Brazil, 2 LRLs from Africa and 2 high-resource languages (HRLs) (e.g., English and Brazilian Portuguese). Our results indicate that the LLMs perform worse for the part of speech (POS) labeling of LRLs in comparison to HRLs. We explain the reasons behind this failure and provide an error analysis through examples observed in our data set.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# 大規模言語モデルにおけるリアルタイム学習に向けて:批判的レビュー

Towards Real-time Learning in Large Language Models: A Critical Review ( http://arxiv.org/abs/2404.18311v2 )

ライセンス: Link先を確認
Mladjan Jovanovic, Peter Voss, (参考訳) リアルタイム学習は、学習システムが時間とともに知識を習得し、新しいタスクへの適応と一般化を可能にする能力に関するものである。 これは知的で現実世界のシステムにとって重要な能力であり、特にデータが不十分で入手が困難である場合である。 本稿では,大規模言語モデルにおけるリアルタイム学習の包括的分析について述べる。 継続的な学習、メタラーニング、パラメータ効率の学習、エキスパートの混合学習など、最先端のリアルタイム学習パラダイムを合成する。 本研究は,これらのトピックから得られた特定の成果とその重要な要因を記述し,リアルタイム学習の有用性を実証する。 最後に,今後の研究の課題と課題について述べる。 最新の研究成果を集約することにより、リアルタイム学習の包括的理解と、実世界の問題に対処するLLMベースの学習システムを設計・開発する上での意義について述べる。

Real-time learning concerns the ability of learning systems to acquire knowledge over time, enabling their adaptation and generalization to novel tasks. It is a critical ability for intelligent, real-world systems, especially when data may be insufficient or difficult to obtain. This review provides a comprehensive analysis of real-time learning in Large Language Models. It synthesizes the state-of-the-art real-time learning paradigms, including continual learning, meta-learning, parameter-efficient learning, and mixture-of-experts learning. We demonstrate their utility for real-time learning by describing specific achievements from these related topics and their critical factors. Finally, the paper highlights current problems and challenges for future research in the field. By consolidating the latest relevant research developments, this review offers a comprehensive understanding of real-time learning and its implications for designing and developing LLM-based learning systems addressing real-world problems.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# Equivalence: インタラクティブなインスタレーション設計手法によるコンセプトアートから見た画像生成AIによるアーティストの役割の分析

Equivalence: An analysis of artists' roles with Image Generative AI from Conceptual Art perspective through an interactive installation design practice ( http://arxiv.org/abs/2404.18385v2 )

ライセンス: Link先を確認
Yixuan Li, Dan C. Baciu, Marcos Novak, George Legrady, (参考訳) 過去1年間で、高度なテキストから画像生成AIモデルの出現は、アートの世界に大きな影響を与え、創造性という伝統的な概念とアーティストの役割に挑戦してきた。 本研究では5Pモデル(Purpose, People, Process, Product, Press)を用いて,Rhodesの創造的フレームワークを用いて,コンセプトアートと画像生成AIの背景にある芸術的プロセスを比較する。 この枠組みを実証するために、ユーザ音声入力を安定拡散法とNLPアルゴリズムに基づいて連続的に進化する絵画に変換するマルチスクリーンインタラクティブなインスタレーションである"Equivalence"という実用的なケーススタディを開発した。 本研究は,包括的分析とケーススタディを通じて,アーティストの役割の理解を深め,画像生成AIによって作成されたアートに固有の創造的側面に対する深い評価を促進することを目的としている。

Over the past year, the emergence of advanced text-to-image Generative AI models has significantly impacted the art world, challenging traditional notions of creativity and the role of artists. This study explores how artists interact with these technologies, using a 5P model (Purpose, People, Process, Product, and Press) based on Rhodes' creativity framework to compare the artistic processes behind Conceptual Art and Image Generative AI. To exemplify this framework, a practical case study titled "Equivalence", a multi-screen interactive installation that converts users' speech input into continuously evolving paintings developed based on Stable Diffusion and NLP algorithms, was developed. Through comprehensive analysis and the case study, this work aims to broaden our understanding of artists' roles and foster a deeper appreciation for the creative aspects inherent in artwork created with Image Generative AI.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# ShadowMaskFormer: シャドウ除去のためのマスク拡張パッチ埋め込み

ShadowMaskFormer: Mask Augmented Patch Embeddings for Shadow Removal ( http://arxiv.org/abs/2404.18433v2 )

ライセンス: Link先を確認
Zhuohao Li, Guoyang Xie, Guannan Jiang, Zhichao Lu, (参考訳) Transformerは最近、コンピュータビジョンタスクのデファクトモデルとして登場し、シャドー除去にも成功している。 しかし、これらの既存手法は、汎用的なパッチ埋め込みを使用しながら、トランスフォーマーブロック内の注意機構の複雑な変更に大きく依存している。 結果として、計算リソースの追加を必要とする複雑なアーキテクチャ設計につながることが多い。 本研究では,初期処理段階における影情報の導入の有効性について検討する。 そこで我々はShadowMaskFormerと呼ばれるシャドー除去に適した新しいパッチ埋め込みを備えたトランスフォーマーベースのフレームワークを提案する。 具体的には、シャドウ情報を統合し、シャドウ領域の知識獲得にモデルが重点を置くことを促進するための、シンプルで効果的なマスク拡張パッチ埋め込みを提案する。 ISTD, ISTD+, SRDベンチマークを用いて, より少ないモデルパラメータを用いて, 最先端手法に対する本手法の有効性を実証した。

Transformer recently emerged as the de facto model for computer vision tasks and has also been successfully applied to shadow removal. However, these existing methods heavily rely on intricate modifications to the attention mechanisms within the transformer blocks while using a generic patch embedding. As a result, it often leads to complex architectural designs requiring additional computation resources. In this work, we aim to explore the efficacy of incorporating shadow information within the early processing stage. Accordingly, we propose a transformer-based framework with a novel patch embedding that is tailored for shadow removal, dubbed ShadowMaskFormer. Specifically, we present a simple and effective mask-augmented patch embedding to integrate shadow information and promote the model's emphasis on acquiring knowledge for shadow regions. Extensive experiments conducted on the ISTD, ISTD+, and SRD benchmark datasets demonstrate the efficacy of our method against state-of-the-art approaches while using fewer model parameters.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# 概念に基づく言語モデル記述の評価:忠実性と可読性に関する研究

Evaluating Concept-based Explanations of Language Models: A Study on Faithfulness and Readability ( http://arxiv.org/abs/2404.18533v2 )

ライセンス: Link先を確認
Meng Li, Haoran Jin, Ruixuan Huang, Zhihao Xu, Defu Lian, Zijia Lin, Di Zhang, Xiting Wang, (参考訳) LLM(Large Language Models)による驚くほど高いインテリジェンスにもかかわらず、私たちはブラックボックスの性質を考慮して、それらを現実のアプリケーションに完全にデプロイすることを脅かしています。 概念に基づく説明は、LSMが学んだことを説明するための有望な道として生まれ、人間にとってより透明になる。 しかしながら、現在の概念評価はヒューリスティックで非決定論的であり、例えば、ケーススタディや人間の評価は、この分野の発展を妨げる傾向にある。 ギャップを埋めるために,信頼と可読性による概念に基づく説明評価にアプローチする。 まず、多種多様な概念に基づく説明に一般化可能な概念の形式的定義を導入する。 これに基づいて、摂動時の出力差による忠実度を定量化する。 次に、概念を最大限に活性化するパターンのコヒーレンスを測定することにより、可読性の自動測定を行う。 この措置は、費用対効果が高く信頼性の高い人的評価の代用として機能する。 最後に, 測定理論に基づいて, 信頼性と妥当性による評価を行うメタ評価手法について述べる。 概念評価尺度の選択を検証し, 通知するために, 広範囲にわたる実験分析を行った。

Despite the surprisingly high intelligence exhibited by Large Language Models (LLMs), we are somehow intimidated to fully deploy them into real-life applications considering their black-box nature. Concept-based explanations arise as a promising avenue for explaining what the LLMs have learned, making them more transparent to humans. However, current evaluations for concepts tend to be heuristic and non-deterministic, e.g. case study or human evaluation, hindering the development of the field. To bridge the gap, we approach concept-based explanation evaluation via faithfulness and readability. We first introduce a formal definition of concept generalizable to diverse concept-based explanations. Based on this, we quantify faithfulness via the difference in the output upon perturbation. We then provide an automatic measure for readability, by measuring the coherence of patterns that maximally activate a concept. This measure serves as a cost-effective and reliable substitute for human evaluation. Finally, based on measurement theory, we describe a meta-evaluation method for evaluating the above measures via reliability and validity, which can be generalized to other tasks as well. Extensive experimental analysis has been conducted to validate and inform the selection of concept evaluation measures.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# STT行列を用いた渦におけるマヨラナゼロモードのブレイディング方式

Scheme for braiding Majorana zero modes in vortices using an STT-matrix ( http://arxiv.org/abs/2404.18578v2 )

ライセンス: Link先を確認
Guangyao Huang, Xinfang Zhang, Xiaofeng Yi, Jibang Fu, Weichen Wang, Mingtang Deng, (参考訳) 最近行われた2次元トポロジカル超伝導体に関する実験により、マヨラナゼロモード(MZM)の様々な表示が明らかになった。 しかし、MZMブレイディングの操作の進歩は制限されており、トポロジカル量子コンピューティングの実現を妨げている。 そこで本研究では,スピントロニックデバイスマトリクスに基づく潜在的なブレイディング方式を提案する。 このスキームは、2次元のトポロジカル超伝導材料と共にスピントランスファートルクデバイス(STT-マトリクス)からなるマトリックスを利用する。 STT行列内のスピントロニクス装置のON/OFF状態をプログラムすることにより、二次元超伝導体にMZMをホストする渦を操作することができる。 この概念をさらに検討するため、時間依存型ギンズブルグ・ランダウモデルを構築し、渦駆動力学、MZMブレイディング過程、MZM融合現象を分析する数値シミュレーションを行う。 以上の結果から,大動脈操作の柔軟性と柔軟性が示唆された。 スピントロニクスデバイス技術の発展に伴い, 提案手法は, トポロジカル超伝導体に存在する渦内でMZMを動作させるための実用的, 実用的手法を提供する。

Recently conducted experiments on two-dimensional topological superconductors have revealed various indications of Majorana zero modes (MZMs). However, progress in the manipulation of MZM braiding has been limited, impeding the realization of topological quantum computing. In this study, we propose a potential braiding scheme based on a spintronic device matrix. This scheme involves utilizing a matrix composed of spin-transfer torque devices (STT-matrix) alongside a two-dimensional topological superconductor material. By programming the ON/OFF states of the spintronic devices within the STT-matrix, it becomes possible to manipulate vortices hosting MZMs in the two-dimensional topological superconductor. To further investigate this concept, we construct a time-dependent Ginzburg-Landau model and perform numerical simulations to analyze vortex-driving dynamics, MZM braiding processes, and MZM fusion phenomena. Our findings demonstrate that this system exhibits high versatility and flexibility in manipulating vortices. With advancements in spintronic device technology, our proposed scheme offers a feasible and practical method for operating MZMs within vortices present in topological superconductors.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# QOSST: 連続可変量子キー分散実験のための高モジュールオープンソースプラットフォーム

QOSST: A Highly-Modular Open Source Platform for Experimental Continuous-Variable Quantum Key Distribution ( http://arxiv.org/abs/2404.18637v2 )

ライセンス: Link先を確認
Yoann Piétri, Matteo Schiavon, Valentina Marulanda Acosta, Baptiste Gouraud, Luis Trigo Vidarte, Philippe Grangier, Amine Rhouni, Eleni Diamanti, (参考訳) 量子鍵分布(Quantum Key Distribution, QKD)は、量子物理学の法則に根ざした情報理論セキュリティを持つ2つのリモートパーティ間の秘密鍵交換を可能にする。 光のコヒーレントな状態の2次成分の値などの連続変数(CV)における鍵情報の符号化は、標準的な光通信システムにはるかに近い実装をもたらすが、これは低信号対雑音比で操作するのに必要とされるデジタル信号処理技術において、かなり複雑である。 本研究では,CV-QKD実験の参入障壁を小さくし,ハードウェア非依存で,複数の構成で使用可能な,高度にモジュール化されたオープンソースソフトウェアを提供することにより,その難しさを解消したい。 我々は、局所的に発生する局所発振器、周波数多重化パイロット、RF-ヘテロダイン検出による実験装置を用いて、QOSSTと呼ばれるこのソフトウェアをベンチマークし、漸近限界における大都市圏距離におけるMbit/sのオーダーの最先端秘密鍵レートを得た。 我々は,QOSSTがCV-QKDのさらなる実験的進歩を刺激し,コミュニティによって改良・拡張され,多種多様な構成で高い性能を期待する。

Quantum Key Distribution (QKD) enables secret key exchange between two remote parties with information-theoretic security rooted in the laws of quantum physics. Encoding key information in continuous variables (CV), such as the values of quadrature components of coherent states of light, brings implementations much closer to standard optical communication systems, but this comes at the price of significant complexity in the digital signal processing techniques required for operation at low signal-to-noise ratios. In this work, we wish to lower the barriers to entry for CV-QKD experiments associated to this difficulty by providing a highly modular, open source software that is in principle hardware agnostic and can be used in multiple configurations. We benchmarked this software, called QOSST, using an experimental setup with a locally generated local oscillator, frequency multiplexed pilots and RF-heterodyne detection, and obtained state-of-the-art secret key rates of the order of Mbit/s over metropolitan distances at the asymptotic limit. We hope that QOSST can be used to stimulate further experimental advances in CV-QKD and be improved and extended by the community to achieve high performance in a wide variety of configurations.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# AIライフサイクルに沿ったフェアネスのための説明可能な人工知能(XAI)の可能性のマッピング

Mapping the Potential of Explainable Artificial Intelligence (XAI) for Fairness Along the AI Lifecycle ( http://arxiv.org/abs/2404.18736v2 )

ライセンス: Link先を確認
Luca Deck, Astrid Schomäcker, Timo Speith, Jakob Schöffer, Lena Kästner, Niklas Kühl, (参考訳) さまざまな領域で人工知能(AI)システムが広く使われるようになると、アルゴリズムの公正性、特に高い評価のシナリオに関する問題がますます強調されている。 したがって、AIシステムの公正性がどのように改善されるのか、このプロセスを支援するためにどのような手段が利用できるのか、という批判的な考察が過度に進んでいる。 多くの研究者や政策立案者は、AIシステムの公正性を高めるための有望な方法として説明可能なAI(XAI)を考えている。 しかし、異なるデシダラタを表すXAIの方法やフェアネスの概念は様々であり、XAIとフェアネスの正確な関係はいまだに不明瞭である。 さらに、アルゴリズムの公正性を高めるためのさまざまな手段が、AIシステムのライフサイクルを通して異なるポイントに適用できる可能性がある。 しかし、AIライフサイクルに沿って、現在フェアネスデシダータのコヒーレントなマッピングはありません。 我々は8つの公正なデシダータを蒸留し、AIライフサイクルに沿ってそれらをマップし、XAIがそれぞれにどのように対処できるかを議論する。 我々は,これらのフェアネス・デシダータに特化して,実践的応用のためのオリエンテーションを提供し,XAI研究のインスピレーションを期待する。

The widespread use of artificial intelligence (AI) systems across various domains is increasingly highlighting issues related to algorithmic fairness, especially in high-stakes scenarios. Thus, critical considerations of how fairness in AI systems might be improved, and what measures are available to aid this process, are overdue. Many researchers and policymakers see explainable AI (XAI) as a promising way to increase fairness in AI systems. However, there is a wide variety of XAI methods and fairness conceptions expressing different desiderata, and the precise connections between XAI and fairness remain largely nebulous. Besides, different measures to increase algorithmic fairness might be applicable at different points throughout an AI system's lifecycle. Yet, there currently is no coherent mapping of fairness desiderata along the AI lifecycle. In this paper, we set out to bridge both these gaps: We distill eight fairness desiderata, map them along the AI lifecycle, and discuss how XAI could help address each of them. We hope to provide orientation for practical applications and to inspire XAI research specifically focused on these fairness desiderata.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# 変位熱状態をもつ量子鍵分布

Quantum key distribution with displaced thermal states ( http://arxiv.org/abs/2404.18777v2 )

ライセンス: Link先を確認
Adam Walton, Anne Ghesquière, Benjamin Varcoe, (参考訳) 秘密鍵交換は、セキュアな通信のためのリソースとして機能する相関信号の生成に依存している。 熱状態はハンベリー・ブラウンとツイツの相関を示し、そのような信号を生成するための有望な道を提供する。 本稿ではマイクロ波領域における中心放送熱状態量子鍵分布(QKD)プロトコルの実験的実装について述べる。 本研究の目的は、利用可能な放送機器を利用したQKDの簡単な方法を示すことである。 従来の熱状態QKDのアプローチとは異なり、変位した熱状態を利用する。 これらの状態は、導波路と自由空間の両方を通して、アリス、ボブ、イブの間で熱源の出力を共有することができる。 計測とビット文字列への変換により,特殊機器を必要とせずにキー可読ビット文字列を生成する。 サーマルブロードキャストにおける固有ノイズを利用することにより,各関係者による異なるビット列の復元が容易になる。

Secret key exchange relies on the creation of correlated signals, serving as the raw resource for secure communication. Thermal states, exhibit Hanbury Brown and Twiss correlations, which offer a promising avenue for generating such signals. In this paper, we present an experimental implementation of a central broadcast thermal state quantum key distribution (QKD) protocol in the microwave region. Our objective is to showcase a straightforward method of QKD utilizing readily available broadcasting equipment. Unlike conventional approaches to thermal state QKD, we leverage displaced thermal states. These states enable us to share the output of a thermal source among Alice, Bob, and Eve via both waveguide channels and free space. Through measurement and conversion into bit strings, our protocol produces key-ready bit strings without the need for specialized equipment. By harnessing the inherent noise in thermal broadcasts, our setup facilitates the recovery of distinct bit strings by all parties involved.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# 強化学習に基づくエネルギー配置戦略のための制御ポリシー補正フレームワーク

Control Policy Correction Framework for Reinforcement Learning-based Energy Arbitrage Strategies ( http://arxiv.org/abs/2404.18821v2 )

ライセンス: Link先を確認
Seyed Soroush Karimi Madahi, Gargya Gokhale, Marie-Sophie Verwee, Bert Claessens, Chris Develder, (参考訳) 再生可能エネルギー源の継続的な普及は、単一不均衡価格の使用とともに、不均衡解決機構におけるエネルギー仲裁を通じて、責任ある当事者がコストを削減できる新たな機会を提供する。 モデルフリー強化学習(RL)法は、複雑な確率的逐次問題の解法において、その優れた性能のために、エネルギー仲裁問題を解くのに適した選択である。 しかし、RLの学習ポリシーは実行フェーズの安全性を必ずしも保証しないため、現実世界のアプリケーションにRLがデプロイされることは滅多にない。 そこで本稿では,不均衡解決機構における安全なエネルギー仲裁戦略を実現するために,電池用RLベースの新しい制御フレームワークを提案する。 提案する制御フレームワークでは、当初、仲裁収入の最適化を目的としていた。 後処理工程では,人間の直感に追従する特性に基づいて,知識蒸留プロセスに従って学習方針を修正(拘束)する。 我々の後処理ステップは汎用的な手法であり、エネルギー仲裁領域に制限されない。 提案手法の性能評価には,2023年のベルギーの不均衡価格を用いる。 さらに,提案する制御フレームワークを実際のバッテリー上に展開し,実環境におけるその能力を示す。

A continuous rise in the penetration of renewable energy sources, along with the use of the single imbalance pricing, provides a new opportunity for balance responsible parties to reduce their cost through energy arbitrage in the imbalance settlement mechanism. Model-free reinforcement learning (RL) methods are an appropriate choice for solving the energy arbitrage problem due to their outstanding performance in solving complex stochastic sequential problems. However, RL is rarely deployed in real-world applications since its learned policy does not necessarily guarantee safety during the execution phase. In this paper, we propose a new RL-based control framework for batteries to obtain a safe energy arbitrage strategy in the imbalance settlement mechanism. In our proposed control framework, the agent initially aims to optimize the arbitrage revenue. Subsequently, in the post-processing step, we correct (constrain) the learned policy following a knowledge distillation process based on properties that follow human intuition. Our post-processing step is a generic method and is not restricted to the energy arbitrage domain. We use the Belgian imbalance price of 2023 to evaluate the performance of our proposed framework. Furthermore, we deploy our proposed control framework on a real battery to show its capability in the real world.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# ゲート型量子コンピュータにおけるシステムバス物理の実証

Demonstration of system-bath physics on gate-based quantum computer ( http://arxiv.org/abs/2404.18828v2 )

ライセンス: Link先を確認
Pascal Stadler, Matteo Lodi, Andisheh Khedri, Rolando Reiner, Kirsten Bark, Nicolas Vogt, Michael Marthaler, Juha Leppäkangas, (参考訳) 我々は,IBM-Qデバイス上でのアルゴリズム冷却を実演する。 本研究では, 発散補助スピン浴と結合した場合に, 相互作用するスピン系の基底状態への平衡をシミュレートするために, 固有量子ビット雑音を利用する。 系の定常相関はハミルトニアン系によって定義され、アルゴリズムの実行が可能である限り安定である。 特に、ハミルトニアンの定義によって制御される強磁性および反強磁性秩序への系スピンの緩和を実証する。 最大3つの系スピンと4つの補助スピンのグローバルシステムに対してシミュレーション冷却を行うことができる。

We demonstrate algorithmic cooling on IBM-Q devices. We utilize inherent qubit noise to simulate the equilibration of an interacting spin system towards its ground state, when coupled to a dissipative auxiliary-spin bath. The steady-state correlations in the system are defined by the system Hamiltonian and are stable as long as the algorithm can be executed. In particular, we demonstrate the relaxation of system spins to ferromagnetic and antiferromagnetic ordering, controlled by the definition of the Hamiltonian. We are able to perform simulated cooling for global systems of up to three system spins and four auxiliary spins.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30
# FeDeRA:Federated Learning Leveraging Weight Decompositionにおける言語モデルの効率的な微調整

FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition ( http://arxiv.org/abs/2404.18848v2 )

ライセンス: Link先を確認
Yuxuan Yan, Shunpu Tang, Zhiguo Shi, Qianqian Yang, (参考訳) プレトレーニング言語モデル(PLM)は、微調整後、様々な下流タスクにおいて優れた性能を示した。 それでも、ユーザのプライバシに関する懸念がエスカレートし、広範なデータ収集に依存する集中トレーニングに重大な課題をもたらしている。 フェデレーションラーニング(Federated Learning)は、クライアントのトレーニングのみを必要とし、データを共有せずにサーバの重みを集約するソリューションとして登場した。 しかし、PLMのかなりのパラメータサイズは、クライアントデバイスの計算資源に大きな負担を与え、通信コストも高くつく。 パラメータ効率の良いファインチューニング(PEFT)をフェデレーション学習に導入することは、この問題に効果的に対処できる。 しかし,フェデレート学習における非IIDデータは,PEFT法とFFT(Full parameter fine-tuning)のパフォーマンスのギャップを生じさせる。 そこで我々は,フェデレーション学習におけるローランド適応(LoRA)法の改良であるFeDeRAを提案する。 FeDeRAはLoRAと同じアダプタモジュールを使用する。 しかし、FeDeRAのアダプタモジュールの初期化には、事前学習された行列上でSingular Value Decomposition (SVD)を実行し、その主成分を選択することで違いがある。 我々は6つのデータセット上で,RoBERTaとDeBERTaV3を用いた広範囲な実験を行い,FFTと他の3つのPEFT法との比較を行った。 FeDeRAは他のPEFT法よりも優れており、FFT法と同等かそれ以上である。 また,Jetson AGX Orin上でのフェデレーション学習も実施し,特定のタスクに対する目標精度を達成するために,異なる手法で必要な時間を比較した。 FFTと比較して、FeDeRAはRoBERTaとDeBERTaV3の3つのタスクでそれぞれ95.9\%、97.9\%、96.9\%、97.3\%、96.5\%、96.5\%のトレーニング時間を短縮する。 総合実験の結果,FeDeRAは効率を保ちながら良好な性能を発揮することが示された。

Pre-trained Language Models (PLMs) have shown excellent performance on various downstream tasks after fine-tuning. Nevertheless, the escalating concerns surrounding user privacy have posed significant challenges to centralized training reliant on extensive data collection. Federated learning, which only requires training on the clients and aggregates weights on the server without sharing data, has emerged as a solution. However, the substantial parameter size of PLMs places a significant burden on the computational resources of client devices, while also leading to costly communication expenses. Introducing Parameter-Efficient Fine-Tuning(PEFT) into federated learning can effectively address this problem. However, we observe that the non-IID data in federated learning leads to a gap in performance between the PEFT method and full parameter fine-tuning(FFT). To overcome this, we propose FeDeRA, an improvement over the Low-Rank Adaption(LoRA) method in federated learning. FeDeRA uses the same adapter module as LoRA. However, the difference lies in FeDeRA's initialization of the adapter module by performing Singular Value Decomposition (SVD) on the pre-trained matrix and selecting its principal components. We conducted extensive experiments, using RoBERTa and DeBERTaV3, on six datasets, comparing the methods including FFT and the other three different PEFT methods. FeDeRA outperforms all other PEFT methods and is comparable to or even surpasses the performance of FFT method. We also deployed federated learning on Jetson AGX Orin and compared the time required by different methods to achieve the target accuracy on specific tasks. Compared to FFT, FeDeRA reduces the training time by 95.9\%, 97.9\%, 96.9\% and 97.3\%, 96.5\%, 96.5\% respectively on three tasks using RoBERTa and DeBERTaV3. The overall experiments indicate that FeDeRA achieves good performance while also maintaining efficiency.
翻訳日:2024-05-01 12:57:01 公開日:2024-04-30